Amazon EMR Serverless 现在支持 Apache Spark 4.0.1(预览版)
Amazon EMR Serverless 现在支持 Apache Spark 4.0.1(预览版)。借助 Spark 4.0.1,您可以使用 ANSI SQL 和 VARIANT 数据类型更轻松地构建和维护数据管道,使用 Apache Iceberg v3 表格式增强合规性和治理框架,并借助增强的流式传输功能更快地部署新的实时应用程序。这让您的团队能够减少技术债务并更快地进行迭代,同时确保数据的准确性和一致性。
借助 Spark 4.0.1,您可以使用标准的 ANSI SQL 来构建数据管道,从而让更多不熟悉 Python 或 Scala 等编程语言的用户也能够轻松上手。Spark 4.0.1 通过 VARIANT 数据类型原生支持 JSON 和半结构化数据,为处理不同的数据格式提供了灵活性。借助 Apache Iceberg v3 表格式,您可以增强合规性和治理能力,该格式提供事务保证,并跟踪数据随时间变化的情况,从而为满足监管要求而生成所需的审计跟踪记录。通过改进的流式传输控制功能,您可以更轻松地管理复杂的有状态操作并监控流式传输作业,从而更快地部署实时应用程序。借助这项功能,您可以支持欺诈检测和实时个性化等使用案例。
Apache Spark 4.0.1 预览版已在提供 EMR Serverless 的所有区域推出,不包括中国和 AWS GovCloud(美国)区域。要了解有关 Amazon EMR 上的 Apache Spark 4.0.1 的更多信息,请参阅 Amazon EMR Serverless 发行说明;要开始使用这项功能,请通过 AWS 管理控制台创建一个使用 Spark 4.0.1 的 EMR 应用程序。