AWS Glue Data Catalog 現在支援針對 Apache Iceberg 表格產生統計資料
AWS Glue Data Catalog 現在支援產生 Apache Iceberg 表格的資料欄級彙總統計資料。這些統計資料現在已經與 Amazon Redshift Spectrum 中以成本為基礎的優化工具 (CBO) 整合,以改善查詢效能,並實現可能的成本節省。
Apache Iceberg 支援如空值、最小值、最大值等統計資料,但缺乏支援產生彙總統計資料,如不同值數量 (NDV) 等。透過這次推出,您現在已整合端對端體驗,其中會在 Apache Iceberg 表格資料欄中收集 NDV,並儲存在 Apache Iceberg Puffin 檔案中。Amazon Redshift 會使用這些彙總統計資料,在查詢處理中盡早套用限制最多的篩選條件來最佳化查詢,從而限制記憶體使用量和讀取的記錄數量,以提供查詢結果。
若要開始使用,您可以使用 AWS Glue 主控台或 AWS Glue API 為 Apache Iceberg 表格產生統計資料。每次執行時,Glue Catalog 都會計算目前 Iceberg 表格快照的統計資料,儲存在 Iceberg Puffin 檔案和 Glue Catalog 中。當您從 Amazon Redshift Spectrum 執行查詢時,您將透過 Apache Iceberg 的內建整合自動改進查詢效能。