AWS Glue Data Catalog 現在支援 Apache Iceberg 表格的儲存最佳化

張貼日期: 2024年9月12日

AWS Glue Data Catalog 現在透過自動移除不再需要的資料檔案,來支援 Apache Iceberg 的儲存最佳化。每次寫入 Iceberg 表格都會建立表格的新快照或版本。此外,在寫入 Iceberg 表格期間發生的任何失敗都會建立在快照中未參照的資料檔案 (稱為「孤立」檔案),進一步增加儲存成本。AWS Glue 目錄的全新儲存最佳化以及自動壓縮將有助於您降低中繼資料開銷、控制儲存成本並提高查詢效能。

在此啟動後,您可以啟用 AWS Glue 目錄表格最佳化,以包括快照和孤立資料管理。您可以透過提供如預設保留期間和保留孤立檔案的天數等組態,來最佳化 Amazon S3 版面配置。啟用後,AWS Glue 目錄會定期監控表格、移除表格中繼資料中的快照、移除 Amazon S3 資料檔案,以及不再需要的孤立檔案。您可以檢視從 Glue 目錄主控台中的表格最佳化標籤中刪除的資料、資訊清單、資訊清單清單和孤立檔案數目的歷史記錄。

除了 AWS Console 之外,客戶還可以使用 AWS CLI 或 AWS SDK 來啟用 Apache Iceberg 的表格最佳化。Iceberg 表格的自動最佳化已在 13 個 AWS 區域中推出:美國東部 (維吉尼亞北部、俄亥俄)、美國西部 (奧勒岡)、歐洲 (愛爾蘭、倫敦、法蘭克福、斯德哥爾摩)、亞太區域 (東京、首爾、孟買、新加坡、雪梨)、南美洲 (聖保羅)。若要深入瞭解,請閱讀部落格,並瀏覽 AWS Glue Data Catalog 文件