AWS Glue Data Catalog 現在支援針對 Apache Iceberg 表格產生統計資料
張貼日期:
2024年7月9日
AWS Glue Data Catalog 現在支援產生 Apache Iceberg 表格的資料欄級彙總統計資料。這些統計資料現在已經與 Amazon Redshift Spectrum 中以成本為基礎的優化工具 (CBO) 整合,以改善查詢效能,並實現可能的成本節省。
Apache Iceberg 支援如空值、最小值、最大值等統計資料,但缺乏支援產生彙總統計資料,如不同值數量 (NDV) 等。透過這次推出,您現在已整合端對端體驗,其中會在 Apache Iceberg 表格資料欄中收集 NDV,並儲存在 Apache Iceberg Puffin 檔案中。Amazon Redshift 會使用這些彙總統計資料,在查詢處理中盡早套用限制最多的篩選條件來最佳化查詢,從而限制記憶體使用量和讀取的記錄數量,以提供查詢結果。
若要開始使用,您可以使用 AWS Glue 主控台或 AWS Glue API 為 Apache Iceberg 表格產生統計資料。每次執行時,Glue Catalog 都會計算目前 Iceberg 表格快照的統計資料,儲存在 Iceberg Puffin 檔案和 Glue Catalog 中。當您從 Amazon Redshift Spectrum 執行查詢時,您將透過 Apache Iceberg 的內建整合自動改進查詢效能。