AWS Glue 데이터 카탈로그, 이제 Apache Iceberg 테이블에 대한 통계 생성 지원

게시된 날짜: 2024년 7월 9일

AWS Glue 데이터 카탈로그가 이제 Apache Iceberg 테이블에 대한 열 수준의 집계 통계 생성을 지원합니다. 이제 이러한 통계를 Amazon Redshift Spectrum의 비용 기반 최적화 프로그램(CBO)과 통합하여 쿼리 성능을 개선하고 잠재적으로 더 많은 비용을 절감할 수 있습니다.

Apache Iceberg는 null, min, max와 같은 통계를 지원하지만 고유 값 수(NDV) 같은 집계 통계 생성은 지원하지 않습니다. 이번 출시를 통해 이제 NDV를 Apache Iceberg 테이블의 열에 수집하고 Apache Iceberg Puffin 파일에 저장하는 엔드 투 엔드 환경을 통합할 수 있습니다. Amazon Redshift는 이러한 집계 통계를 사용하여 쿼리 처리 초기에 가장 제한적인 필터를 적용함으로써 쿼리를 최적화할 수 있으므로 쿼리 결과를 제공하기 위해 읽는 레코드 수와 메모리 사용량을 제한할 수 있습니다.

시작하려면 AWS Glue 콘솔 또는 AWS Glue API를 사용하여 Apache Iceberg 테이블에 대한 통계를 생성하면 됩니다. Glue 카탈로그는 실행할 때마다 현재 Iceberg 테이블 스냅샷에 대한 통계를 컴퓨팅하여 Iceberg Puffin 파일과 Glue 카탈로그에 저장합니다. Amazon Redshift Spectrum에서 쿼리를 실행하면 Apache Iceberg와의 내장된 통합을 통해 쿼리 성능이 자동으로 개선됩니다.

AWS Glue 카탈로그 통계 생성에 대한 지원이 미국 동부(오하이오), 미국 서부(캘리포니아 북부), 유럽(프랑크푸르트), 아시아 태평양(뭄바이) 등의 AWS 리전에서 정식으로 출시되었습니다. 자세히 알아보려면 블로그 게시물을 참조하고 AWS Glue 카탈로그 설명서로 이동하면 됩니다.