이제 Apache Iceberg 테이블의 스토리지 최적화를 지원하는 AWS Glue Data Catalog
이제 AWS Glue Data Catalog에서 더 이상 필요하지 않은 데이터 파일을 자동으로 제거하여 Apache Iceberg 테이블의 스토리지를 최적화하는 작업이 지원됩니다. Iceberg 테이블에 데이터를 기록할 때마다 테이블의 새 스냅샷, 즉 버전이 생성됩니다. 그리고 Iceberg 테이블에 기록을 하는 중에 오류가 발생하면 스냅샷에서 참조되지 않는 “분리된” 파일이라는 데이터 파일이 생성되므로 스토리지 비용이 더 늘어납니다. AWS Glue 카탈로그에서 새롭게 제공되는 스토리지 최적화 기능과 자동화된 압축 기능을 함께 활용하면 메타데이터 오버헤드를 줄이고 스토리지 비용을 제어하는 동시에 쿼리 성능도 개선할 수 있습니다.
이번 지원이 발표됨에 따라 AWS Glue 카탈로그 테이블 최적화를 활성화하여 스냅샷 및 분리된 데이터 관리 작업을 최적화 과정에 포함할 수 있습니다. 기본 보존 기간, 분리된 파일을 보관할 기간(일) 등의 구성을 제공하여 Amazon S3 레이아웃을 최적화할 수 있습니다. 최적화를 활성화하면 AWS Glue 카탈로그가 테이블을 정기적으로 모니터링하여 테이블 메타데이터에서 스냅샷을 제거하며 Amazon S3 데이터 파일과 더 이상 필요하지 않은 분리된 파일을 제거합니다. Glue 카탈로그 콘솔의 테이블 최적화 탭에서 삭제된 데이터, 매니페스트, 매니페스트 목록 및 분리된 파일의 수 관련 기록을 확인할 수 있습니다.
고객은 AWS Console 외에도 AWS CLI 또는 AWS SDK를 사용하여 Apache Iceberg 테이블의 테이블 최적화를 활성화할 수 있습니다. 미국 동부(버지니아 북부, 오하이오), 미국 서부(오리건), 유럽(아일랜드, 런던, 프랑크푸르트, 스톡홀름), 아시아 태평양(도쿄, 서울, 뭄바이, 싱가포르, 시드니), 남아메리카(상파울루)의 13개 AWS 리전에서 Iceberg 테이블의 자동 최적화 기능을 사용할 수 있습니다. 자세히 알아보려면 블로그를 살펴보고 AWS Glue Data Catalog 설명서를 확인하세요.