AWS Glue Data Catalog, Apache Iceberg 테이블에 대한 고급 자동 최적화 제공

게시된 날짜: 2024년 12월 19일

이제 AWS Glue Data Catalog는 Apache Iceberg 테이블에 대한 고급 자동 최적화를 제공합니다. 이번 업데이트에는 삭제 파일 압축, 중첩된 데이터 유형, 부분 진행 커밋, 파티션 개선 지원 등이 포함되어 있어, 일관된 성능의 트랜잭션 데이터 레이크를 보다 쉽게 유지 관리할 수 있습니다. 이러한 기능은 Apache Iceberg 테이블에 스트리밍 데이터가 지속적으로 수집되어 데이터 파일의 변경 사항을 추적하는 삭제 파일이 많이 생성되는 문제를 해결합니다.

Glue Data Catalog는 이 새로운 기능을 통해 테이블 파티션에서 위치 및 동등 삭제 파일을 지속적으로 모니터링하고, 압축 프로세스를 시작하고, 충돌을 줄이기 위해 정기적으로 부분 진행 상황을 커밋합니다. Glue Catalog 옵티마이저는 이제 열의 순서를 바꾸거나 이름을 변경할 때 스키마 진화뿐만 아니라 파티션 사양 진화도 지원합니다. 또한 Glue Catalog는 중첩이 심한 복잡한 데이터에 대한 지원과 parquet 압축 코덱(zstd, brotli, lz4, gzip, snappy 등)에 대한 지원을 확장했습니다. 자동 압축을 활성화하면 Iceberg 테이블의 삭제 파일 및 메타데이터 오버헤드가 줄어들고 쿼리 성능이 향상됩니다. 이러한 새로운 기능은 기존 및 새로운 Glue Catalog 옵티마이저에 자동으로 적용됩니다.

고객은 AWS Console 외에도 AWS CLI 또는 AWS SDK를 사용하여 Apache Iceberg 테이블의 최적화를 자동화할 수 있습니다. 이 기능은 14개 AWS 리전, 즉 미국 동부(버지니아 북부, 오하이오), 미국 서부(오리건), 유럽(아일랜드, 런던, 프랑크푸르트, 스톡홀름), 캐나다(중부), 아시아 태평양(도쿄, 서울, 뭄바이, 싱가포르, 시드니), 남아메리카(상파울루) 리전에서 사용할 수 있습니다. 자세한 내용을 알아보려면 블로그와 AWS Glue Data Catalog 설명서를 참조하세요.

AWS Glue Data Catalog, Apache Iceberg 테이블에 대한 고급 자동 최적화 제공

알아보기

리소스

개발자

도움말