AWS Glue Data Catalog 現在支援欄層級統計資料的排程產生作業
AWS Glue Data Catalog 現在支援 Apache Iceberg 資料表和檔案格式 (例如 Parquet、JSON、CSV、XML、ORC 和 ION) 的欄層級統計資料排程產生功能。此功能推出後,您可以透過在 Glue Data Catalog 中建立重複性排程,簡化和自動化統計資料的產生作業。這些統計資料現在已經與 Amazon Redshift Spectrum 和 Amazon Athena 的成本型最佳化工具 (CBO) 整合,以改善查詢效能,並實現可能的成本節省。
之前,若要設定重複性統計資料產生排程,您必須搭配使用 AWS Lambda 和 Amazon EventBridge 排程器來呼叫 AWS 服務。透過此新功能,您現在可以將重複排程作為其他組態,與取樣百分比一同提供給 Glue Data Catalog。系統會針對每次排程執行收集 Apache Iceberg 資料表的不同值數量 (NDV),並針對其他檔案格式收集其他統計資料,例如空值數量、最大值、最小值和平均長度。隨著統計資料不斷更新,Amazon Redshift 和 Amazon Athena 會透過最佳化 (例如最佳化加入順序或成本型彙總下推) 功能,使用這些資料來最佳化查詢。您可以了解每個統計資料產生執行的狀態和時間,以及更新的統計值。
若要開始使用,您可以使用 AWS Glue Data Catalog 主控台或 AWS Glue API 排程統計資料產生作業。所有提供 Amazon EventBridge 排程器的區域正式推出 AWS Glue Catalog 統計資料排程產生作業。請參閱 AWS Glue Catalog 文件以進一步了解。