AWS 宣布支持 Apache Iceberg V3 的删除向量和行级谱系功能

发布于: 2025年11月26日

AWS 现在支持 Apache Iceberg 第 3 版(V3)规范中定义的删除向量和行级谱系功能。这些新功能可在 Amazon EMR 7.12 上的 Apache Spark、AWS Glue、Amazon SageMaker Notebook、Amazon S3 表类数据存储服务和 AWS Glue Data Catalog 中使用。

这些 Iceberg V3 功能可以帮助客户构建 PB 级数据湖,提升数据修改性能,并具备便于追踪变更记录的功能。删除向量会写入经过优化的删除文件,从而加速数据管道并降低数据压缩成本。行级谱系为每条记录提供元数据字段,让您能够通过简单的 SQL 查询追踪更改,从而避免了在大型表中查找细微变更所产生的计算费用。

在 Spark 或 SageMaker Notebook 中使用 CREATE TABLE 命令,将表属性设置为“format-version = 3”,即可开始创建 V3 表。要升级现有表,只需在元数据中将表属性更新为新的格式版本即可。在您完成该操作后,支持 V3 的 AWS 查询引擎将自动开始使用删除向量和行级谱系功能。

Iceberg V3 删除向量和行级谱系功能现已在支持 Amazon EMR、AWS Glue、SageMaker Notebook、S3 表类数据存储服务和 AWS Glue Data Catalog 的所有 AWS 区域推出。要详细了解 AWS 对 Iceberg V3 的支持,请访问 AWS 上的 Apache Iceberg V3 页面,并阅读博客文章