게시된 날짜: Nov 15, 2023
이제 AWS Glue 데이터 카탈로그는 Apache Iceberg 테이블의 자동 압축을 지원하므로 더 쉽게 트랜잭션 데이터 레이크의 높은 성능을 유지할 수 있습니다. Apache Iceberg 테이블에서 자동 압축을 활성화하면 Iceberg 테이블의 메타데이터 오버헤드가 줄어들고 쿼리 성능이 향상됩니다.
Apache Iceberg는 데이터 레이크의 대규모 테이블에 대해 빠른 쿼리 성능을 제공하는 오픈 테이블 형식입니다. Apache Iceberg는 Amazon S3의 메타데이터로 테이블의 데이터 파일을 추적합니다. 테이블이 더 많이 변경될수록 더 많은 데이터 파일이 생성되고 쿼리의 효율성이 떨어질 수 있습니다. 조직에서는 성능을 개선하고 비용을 통제하기 위해 주기적으로 작은 파일을 압축하는 사용자 지정 데이터 파이프라인을 만들어야 했습니다. 이러한 사용자 지정 파이프라인을 구축하려면 시간과 비용이 많이 듭니다. 이번 출시 덕분에 AWS Glue 데이터 카탈로그에 있는 Apache Iceberg 테이블을 자동으로 압축할 수 있습니다. 일단 활성화되면, AWS Glue 데이터 카탈로그는 지속적으로 새로운 데이터 쓰기를 모니터링하고, 기본 Amazon S3 스토리지의 작은 파일을 추적하고, 사용자의 추가 입력 없이 백그라운드에서 압축 작업을 자동으로 트리거합니다. 이제 Iceberg 테이블에 대해 상시 최적화된 Amazon S3 레이아웃을 확보하여 데이터 레이크에서 더 빠른 읽기 성능을 확보할 수 있습니다.
고객은 AWS Console 외에도 AWS CLI 또는 AWS SDK를 사용하여 Apache Iceberg 테이블의 압축 지원을 자동화할 수 있습니다. 자세한 내용은 여기를 참조하세요.