AWS Glue Data Catalog, 이제 열 수준 통계의 예약 생성 지원

게시된 날짜: 2024년 11월 13일

이제 AWS Glue Data Catalog는 Apache Iceberg 테이블 및 파일 형식(예: Parquet, JSON, CSV, XML, ORC, ION)에 대한 열 수준 통계의 정기 생성을 지원합니다. 이번 출시로 Glue Data Catalog에서 반복 일정을 생성하여 통계 생성을 간소화 및 자동화할 수 있습니다. 이러한 통계는 Amazon Redshift Spectrum 및 Amazon Athena의 비용 기반 최적화 프로그램(CBO)과 통합되어 쿼리 성능을 개선하고 잠재적으로 더 많은 비용을 절감할 수 있습니다.

지금까지는 반복 통계 생성 일정을 설정하려면 AWS Lambda와 Amazon EventBridge Scheduler를 함께 사용하여 AWS 서비스를 직접적으로 호출해야 했습니다. 이 새로운 기능을 사용하면 반복 일정을 샘플링 비율과 함께 Glue Data Catalog에 추가 구성으로 제공할 수 있습니다. 예약된 각 실행에 대해 Apache Iceberg 테이블의 경우 고유 값 수(NDV)가 수집되고 다른 파일 형식의 경우 null 수, 최대값, 최소값, 평균 길이 등의 추가 통계가 수집됩니다. 통계가 업데이트되면 Amazon Redshift와 Amazon Athena는 이를 사용해 최적 조인 순서 또는 비용 기반 집계 푸시다운과 같은 최적화를 통해 쿼리를 최적화합니다. 각 통계 생성 실행의 상태 및 타이밍과 업데이트된 통계 값에 대한 가시성을 확보할 수 있습니다.

시작하려면 AWS Glue Data Catalog 콘솔 또는 AWS Glue API를 사용하여 통계 생성을 예약하면 됩니다. AWS Glue Catalog 통계의 예약 생성에 대한 지원은 Amazon EventBridge Scheduler를 사용할 수 있는 모든 리전에서 정식 버전으로 제공됩니다. 자세한 내용은 AWS Glue 카탈로그 설명서를 참조하세요.