AWS Glue Data Catalog 現在支援針對 Apache Iceberg 表格產生統計資料

張貼日期: 2024年7月9日

AWS Glue Data Catalog 現在支援產生 Apache Iceberg 表格的資料欄級彙總統計資料。這些統計資料現在已經與 Amazon Redshift Spectrum 中以成本為基礎的優化工具 (CBO) 整合,以改善查詢效能,並實現可能的成本節省。

Apache Iceberg 支援如空值、最小值、最大值等統計資料,但缺乏支援產生彙總統計資料,如不同值數量 (NDV) 等。透過這次推出,您現在已整合端對端體驗,其中會在 Apache Iceberg 表格資料欄中收集 NDV,並儲存在 Apache Iceberg Puffin 檔案中。Amazon Redshift 會使用這些彙總統計資料,在查詢處理中盡早套用限制最多的篩選條件來最佳化查詢,從而限制記憶體使用量和讀取的記錄數量,以提供查詢結果。

若要開始使用,您可以使用 AWS Glue 主控台或 AWS Glue API 為 Apache Iceberg 表格產生統計資料。每次執行時,Glue Catalog 都會計算目前 Iceberg 表格快照的統計資料,儲存在 Iceberg Puffin 檔案和 Glue Catalog 中。當您從 Amazon Redshift Spectrum 執行查詢時,您將透過 Apache Iceberg 的內建整合自動改進查詢效能。

產生 AWS Glue Catalog 統計資料的支援在下列 AWS 區域全面提供:美國東部 (俄亥俄)、美國西部 (加利佛尼亞北部)、歐洲 (法蘭克福)、亞太地區 (孟買)。閱讀部落格文章,並瀏覽 AWS Glue 目錄文件以進一步了解。