发布于: Oct 31, 2022

Amazon EMR 版本 6.8 现已支持 Apache Hudi 0.11.1 和 Apache Iceberg 0.14.0。您可以在 Amazon EMR on EC2、Amazon EMR on EKS 以及 Amazon EMR Serverless 上使用这些框架。

Apache Hudi 0.11.1 on Amazon EMR 6.8 包括对 Spark 3.3.0 的支持;添加了多模式索引支持和元数据表数据跳过,允许向表中添加布隆筛选条件和列统计信息索引,从而显著提高查询性能;添加了异步索引器服务,允许用户在元数据表中创建不同类型的索引(例如文件、布隆筛选条件和列统计信息),而不阻止摄取;包括 Spark SQL 改进功能,增加了对使用非主键字段在 Hudi 表中更新或删除记录的支持以及通过 timestamp as of 语法的 Time travel 查询;包括 Flink 集成改进功能,支持 Flink 1.13.x 和 1.14.x,还支持 Map 和 Array 等复杂数据类型。此外,Hudi 0.11.1 包括对 Amazon EMR 版本 6.7 中提供的 Hudi 0.11.0 的漏洞修复。有关详细信息,请参阅 OSS Hudi 发行文档

Apache Iceberg 0.14.0 on Amazon EMR 6.8 包括对 Spark 3.3.0 的支持,添加了对 MERGE 和 UPDATE 语句的读时合并支持,添加了对使用 Z 轴重写分区的支持(允许重新组织分区,以便对多个列高效执行查询谓词,并将相似的数据保存在一起),包括对 Spark 查询中的扫描规划的多项性能改进,添加了对使用 Parquet 布隆筛选条件跳过行组的支持。有关详细信息,请参阅 OSS Iceberg 发行文档

Amazon EMR 6.8 版已在提供 Amazon EMR 的所有区域全面推出。有关更多详细信息,请参阅 Amazon EMR 区域可用性发行说明