Amazon EMR 现在正式支持 Apache Spark 4.0.2

发布于: 2026年5月27日

Amazon EMR 现已在所有三种部署模式中都支持 Apache Spark 4.0.2。借助 Spark 4.0.2,您可以使用 ANSI SQL 和 VARIANT 数据类型更轻松地构建和维护数据管道,在行级或列级强制实施精细访问控制(FGAC),使用 Apache Iceberg v3 表格式增强合规性和治理框架,并借助增强的流式传输功能更快地部署新的实时应用程序。

借助 Spark 4.0.2,您可以构建数据管道,通过标准 ANSI SQL 支持,让更广泛的用户可以使用数据工程,而无需学习 Spark 专有语法。Spark 4.0.2 通过 VARIANT 数据类型原生支持 JSON 和半结构化数据,为处理不同格式的数据提供了灵活性。您可以在 Apache Spark 作业中,对 AWS Lake Formation 注册表的读取和写入操作强制执行精细访问控制(FGAC)。Apache Iceberg v3 表格式基于这些安全功能构建而成,提供了更强的交易保障并跟踪数据血统,从而创建了满足监管合规性所需的审计跟踪记录。增强的流控制功能简化了对复杂有状态操作的管理并改进了监控,使您能够更快地部署用于欺诈检测、个性化以及其他时间敏感型使用案例的实时应用程序。


Apache Spark 4.0.2 已在提供 EMR 的所有区域推出。如需升级现有 EMR 应用程序,您可以使用 Apache Spark 升级代理来加速升级。要了解有关 Amazon EMR 上的 Apache Spark 4.0.2 的更多信息,请参阅 Amazon EMR 发行说明;要开始使用这项功能,请通过 AWS 管理控制台创建一个使用 Spark 4.0.2 的 EMR 应用程序。