AWS Glue Data Catalog 現可將為新資料表產生統計資料的過程自動化
AWS Glue Data Catalog 現可將為新資料表產生統計資料的過程自動化。這些統計資料現已經與 Amazon Redshift 和 Amazon Athena 的成本型最佳化工具 (CBO) 整合,可改善查詢效能並實現可能的成本節省。
查詢引擎 (例如 Amazon Redshift 和 Amazon Athena) 會使用資料表統計資料,來判斷執行查詢的最有效方式。先前,若要在 AWS Glue Data Catalog 中建立 Apache Iceberg 資料表的統計資料,您需要持續監控和更新資料表的組態。如今,AWS Glue Data Catalog 可讓您透過一次性目錄組態,為新的資料表自動產生統計資料。您可以在 Lake Formation 主控台中選取預設目錄,並在資料表最佳化組態標籤中啟用資料表統計資料來開始使用。當建立新的資料表或更新現有資料表時,會使用所有欄的列範例產生統計資料,並定期更新。對於 Apache Iceberg 資料表,這些統計資料包括不同值的數量 (NDV)。對於 Parquet 等其他檔案格式,會收集其他統計資料,例如空值數、最大值和最小值以及平均長度。Amazon Redshift 和 Amazon Athena 會透過最佳化 (例如最佳化加入順序或成本型彙總下推) 功能,使用更新的統計資料來最佳化查詢。Glue Catalog 主控台可讓您了解更新的統計資料和統計資料產生執行。
在下列 AWS 區域全面提供 AWS Glue Catalog 統計資料的自動化支援:美國東部 (維吉尼亞北部、俄亥俄)、美國西部 (加利佛尼亞北部、奧勒岡)、歐洲 (愛爾蘭)、亞太地區 (東京) 區域。閱讀此部落格文章,並瀏覽 AWS Glue Catalog 文件以進一步了解。