用 Spark Connect 在 Amazon EMR Serverless 上运行交互式工作负载
Amazon EMR Serverless 现在支持通过 Spark Connect 进行交互式会话,使您能够在 Amazon SageMaker 融通式合作开发工作室的托管 Notebook,以及您常用的 Notebook 环境和 IDE(如 Jupyter 和 Visual Studio Code)中开发和运行 Apache Spark 应用程序。您还可以在 EMR 控制台中监控和调试正在运行及已完成的会话,并详细查看单个会话的成本和使用情况。
交互式会话提供持久的 Spark 上下文,可无缝贯穿各个单元格和脚本,使您能够在统一环境中将本地 Python 代码执行与远程 Spark 操作相结合。这得益于 Spark Connect 的客户端-服务器架构,该架构将您的应用程序客户端与 Spark 驱动程序解耦,使您能够保留自己偏好的开发环境和工具,同时 Spark 基础设施在 EMR Serverless 上独立运行。该架构支持多种工作流,包括即席数据探索、迭代式逐步调试,以及在部署到生产环境前的增量 PySpark 作业开发。 在可观测性方面,您可以通过 Spark UI 进行实时会话监控,通过 Spark History Server 追踪历史记录,并从 EMR 控制台或 API/CLI/SDK 进行会话管理。
Amazon EMR Serverless 上的 Spark Connect 已在提供 Amazon EMR Serverless 的所有 AWS 区域随 EMR 发行版 7.13 推出。Amazon SageMaker 融通式合作开发工作室在支持的区域中推出。要开始使用,请访问 EMR Serverless 交互式会话用户指南或 Amazon SageMaker 融通式合作开发工作室入门指南。