透過 Spark Connect 在 Amazon EMR Serverless 上執行互動式工作負載

張貼日期: 2026年6月9日

Amazon EMR Serverless 現已支援 Spark Connect 互動式工作階段,可讓您透過 Amazon SageMaker Unified Studio 中的受管筆記本,以及 Jupyter 和 Visual Studio Code 等慣用筆記本環境與 IDE,開發與執行 Apache Spark 應用程式。您也可以在 EMR 主控台中監控與偵錯作用中以及已完成的工作階段,並取得個別工作階段的細部成本和使用量可視性。 

 

互動式工作階段可提供持續存在的 Spark 情境,可順暢跨越多個儲存格與指令碼,讓您在統一環境內結合本機 Python 程式碼執行與遠端 Spark 作業。此功能是由 Spark Connect 的用戶端-伺服器架構所實現,該架構將應用程式用戶端與 Spark 驅動程式解耦,讓您能夠保留偏好的開發環境與工具,同時讓 Spark 基礎架構獨立在 EMR Serverless 上執行。此架構支援多種工作流程,包括臨時資料探索、反覆逐步偵錯,以及在部署到生產環境前進行增量 PySpark 作業開發。  在可觀測性方面,您可透過 Spark UI 進行即時工作階段監控、透過 Spark History Server 追蹤歷史記錄,以及透過 EMR 主控台或 API/CLI/SDK 管理工作階段。

 

Amazon EMR Serverless 上的 Spark Connect 已隨 EMR 7.13 版本推出,且可在所有支援 Amazon EMR Serverless 的 AWS 區域中使用。SageMaker Unified Studio 體驗可在支援的區域中使用。若要開始使用,請瀏覽 EMR Serverless 互動式工作階段使用者指南Amazon SageMaker Unified Studio 入門指南