AWS Glue Data Catalog 現在支援欄層級統計資料的排程產生作業

張貼日期: 2024年11月13日

AWS Glue Data Catalog 現在支援 Apache Iceberg 資料表和檔案格式 (例如 Parquet、JSON、CSV、XML、ORC 和 ION) 的欄層級統計資料排程產生功能。此功能推出後，您可以透過在 Glue Data Catalog 中建立重複性排程，簡化和自動化統計資料的產生作業。這些統計資料現在已經與 Amazon Redshift Spectrum 和 Amazon Athena 的成本型最佳化工具 (CBO) 整合，以改善查詢效能，並實現可能的成本節省。

之前，若要設定重複性統計資料產生排程，您必須搭配使用 AWS Lambda 和 Amazon EventBridge 排程器來呼叫 AWS 服務。透過此新功能，您現在可以將重複排程作為其他組態，與取樣百分比一同提供給 Glue Data Catalog。系統會針對每次排程執行收集 Apache Iceberg 資料表的不同值數量 (NDV)，並針對其他檔案格式收集其他統計資料，例如空值數量、最大值、最小值和平均長度。隨著統計資料不斷更新，Amazon Redshift 和 Amazon Athena 會透過最佳化 (例如最佳化加入順序或成本型彙總下推) 功能，使用這些資料來最佳化查詢。您可以了解每個統計資料產生執行的狀態和時間，以及更新的統計值。

若要開始使用，您可以使用 AWS Glue Data Catalog 主控台或 AWS Glue API 排程統計資料產生作業。所有提供 Amazon EventBridge 排程器的區域正式推出 AWS Glue Catalog 統計資料排程產生作業。請參閱 AWS Glue Catalog 文件以進一步了解。

選取您的 Cookie 偏好設定

AWS Glue Data Catalog 現在支援欄層級統計資料的排程產生作業

結束對 Internet Explorer 的支援