AWS 宣佈支援 Apache Iceberg V3 刪除向量和資料列譜系
AWS 現在支援 Apache Iceberg 第 3 版 (V3) 規格中定義的刪除向量和資料列譜系。這些新功能適用於 Amazon EMR 7.12 上的 Apache Spark、AWS Glue、Amazon SageMaker 筆記本、Amazon S3 Tables 和 AWS Glue Data Catalog。
這些 Iceberg V3 功能可協助客戶建置 PB 規模的資料湖,並具有改善的資料修改效能,以及便於輕鬆追蹤已變更記錄的功能。刪除向量會寫入最佳化的刪除文件,可加快資料管道速度並降低資料壓縮成本。資料列譜系會在每個記錄上提供中繼資料欄位,以利用簡單的 SQL 查詢追蹤變更,進而省去在大型資料表中尋找細小變更的運算費用。
在 Spark 或 SageMaker 筆記本中的 CREATE TABLE 指令中將資料表屬性設定為 "format-version = 3",即可著手建立 V3 資料表。若要升級現有的資料表,只需使用新格式版本更新中繼資料中的資料表屬性即可。在執行此操作後,支援 V3 的 AWS 查詢引擎會自動開始使用刪除向量和資料列譜系。
Iceberg V3 刪除向量和資料列譜系,目前適用於支援各項相應服務/功能 (Amazon EMR、AWS Glue、SageMaker 筆記本、S3 Tables 和 AWS Glue Data Catalog) 的所有 AWS 區域。若要進一步了解適用於 Iceberg V3 的 AWS 支援,請前往 AWS 上的 Apache Iceberg V3,以及閱讀部落格文章。