이제 새 테이블용 통계 생성을 자동으로 수행하는 AWS Glue Data Catalog

게시된 날짜: 2024년 12월 3일

이제 AWS Glue Data Catalog가 새 테이블용 통계 생성을 자동으로 수행합니다. 이러한 통계는 Amazon Redshift 및 Amazon Athena의 비용 기반 최적화 프로그램(CBO)과 통합되므로 쿼리 성능을 개선하고 잠재적으로 더 많은 비용을 절감할 수 있습니다.

테이블 통계는 Amazon Redshift, Amazon Athena 등의 쿼리 엔진에서 가장 효율적인 쿼리 실행 방법을 결정하는 데 사용됩니다. 이전에는 AWS Glue Data Catalog에서 Apache Iceberg 테이블용 통계를 생성하려면 테이블 구성을 지속적으로 모니터링하고 업데이트해야 했습니다. 이제는 AWS Glue Data Catalog에서 카탈로그를 한 번만 구성하면 새 테이블용 통계를 자동으로 생성할 수 있습니다. 먼저 Lake Formation 콘솔에서 기본 카탈로그를 선택한 후 테이블 최적화 구성 탭에서 테이블 통계를 활성화하면 됩니다. 새 테이블이 생성되거나 기존 테이블이 업데이트되면 모든 열의 행 샘플을 사용하여 통계가 생성된 후 정기적으로 새로 고쳐집니다. Apache Iceberg 테이블의 경우 이러한 통계에는 고유 값의 수(NDV)가 포함됩니다. Parquet과 같은 기타 파일 형식의 경우에는 null 수, 최대값과 최소값, 평균 길이 등의 추가 통계가 수집됩니다. Amazon Redshift와 Amazon Athena는 업데이트된 통계를 사용하여 최적 조인 순서 또는 비용 기반 집계 푸시다운과 같은 최적화를 통해 쿼리를 최적화합니다. Glue 카탈로그 콘솔에서 업데이트된 통계 및 통계 생성 실행을 확인할 수 있습니다.

AWS Glue 카탈로그 통계 자동 생성 지원은 미국 동부(버지니아 북부, 오하이오), 미국 서부(캘리포니아 북부, 오리건), 유럽(아일랜드), 아시아 태평양(도쿄) AWS 리전에서 정식 출시되었습니다. 자세히 알아보려면 블로그 게시물을 참조하고 AWS Glue 카탈로그 설명서로 이동하면 됩니다.