AWS Glue Data Catalog 為 Apache Iceberg 資料表提供進階自動最佳化功能

張貼日期: 2024年12月19日

AWS Glue Data Catalog 現在為 Apache Iceberg 資料表提供進階自動最佳化功能。此更新包括支援壓縮刪除檔案、巢狀資料類型、部分進度提交和分區演進支援,讓您更輕鬆地維護一致效能的交易資料湖。這些功能解決了客戶在將串流資料持續導入 Apache Iceberg 資料表時所面臨的挑戰,這些挑戰通常會導致產生大量追蹤資料檔案變更的刪除檔案。

透過這項新功能,Glue Data Catalog 可持續監控資料表分區的位置和平等刪除檔案、啟動壓縮程序,並定期提交部分進度以減少衝突。Glue Catalog 最佳化程式現在支援結構描述演進,可讓您重新排序或重新命名欄位,以及支援分區規範演進。此外,Glue Catalog 還擴展了對深度巢狀複雜資料的支援,並支援 Parquet 壓縮編解碼器,包括 zstd、brotli、lz4、gzip 和 snappy。啟用自動壓縮功能可減少在 Iceberg 資料表上刪除檔案和中繼資料地負擔,並提升查詢效能。這些新功能會自動套用到現有的和新的 Glue Catalog 最佳化程式。

除了 AWS Console 之外,客戶還可以使用 AWS CLI 或 AWS SDK 來自動最佳化 Apache Iceberg 資料表。此功能已在 14 個 AWS 區域推出:美國東部 (維吉尼亞北部、俄亥俄)、美國西部 (奧勒岡)、歐洲 (愛爾蘭、倫敦、法蘭克福、斯德哥爾摩)、加拿大 (中部)、亞太區域 (東京、首爾、孟買、新加坡、雪梨)、南美洲 (聖保羅)。若要進一步了解,請閱讀部落格並瀏覽 AWS Glue Data Catalog 文件