发布于: Sep 19, 2022
我们很高兴地宣布,Amazon EMR on EKS 版本 6.7.0 及更高版本均可通过 StartJobRun API 运行 Apache Spark SQL 脚本。Spark SQL 是一个用于结构化数据处理的 Spark 模块。与 Spark DataFrame API 不同,Spark SQL 接口向 Spark 提供有关数据和正在执行的计算的结构的更多信息。在内部,Spark SQL 使用这些额外的信息来执行其他优化。此功能发布后,您可以直接通过 Amazon EMR on EKS 的 StartJobRun API 来运行 Spark SQL 查询和基于 Spark SQL 的 ETL 管道。
Amazon EMR on EKS 依赖于 StartJobRun API 来启动 Spark 作业。 以前,为了运行 Spark SQL 查询,用户必须将其 SQL 脚本嵌入到 PySpark 等界面中,而这需要用户对现有 Spark SQL 脚本进行修改。作为此次发布的一部分,Amazon EMR on EKS 基准映像新增一个新的 Spark SQL 作业驱动程序,用户可通过其运行 Spark 作业。用户现在可以提供 SQL 入口点文件,以直接使用 StartJobRun API 在 Amazon EMR on EKS 上运行 Spark SQL 查询,而无需对现有的 Spark SQL 脚本进行任何修改。此功能已在提供 Amazon EMR on EKS 的所有区域推出。
要详细了解如何在 Amazon EMR on EKS 上运行 Spark SQL 脚本,请访问此文档页面。