直接透過 Amazon SageMaker Studio 使用 Amazon EMR Serverless 上的 Apache Spark

張貼日期: 2024年9月4日

現在,您可以直接透過 Amazon SageMaker Studio 筆記本,在 Amazon EMR Serverless 上執行 PB 級的資料分析和機器學習。EMR Serverless 會自動佈建和擴展所需的資源,讓您可以專注於資料和模型,而無需設定、最佳化、調整或管理叢集。EMR Serverless 會自動安裝和設定開放原始碼架構,並提供與標準開放原始碼相容且比標準開放原始碼更快的效能最佳化執行時期。

有了此版本後,您現在可以直接透過 SageMaker Studio,以視覺化方式建立和瀏覽 EMR Serverless 應用程式,並且只需按幾下滑鼠,即可加以連線。連線至 EMR Serverless 應用程式後,您可以使用 Spark SQL、Scala、Python 進行互動式查詢、探索和視覺化資料,並執行 Apache Spark 工作,直接透過 Studio 筆記本處理資料。因為工作使用 EMR 的效能最佳化版 Spark,所以執行速度很快。例如,EMR 7.1 上的 Spark 比開放原始碼對應產品的效能快上 4.5 倍。EMR Serverless 提供精細的自動擴展功能,可佈建並快速擴展運算和記憶體資源以符合應用程式的需求,而客戶只需按使用量付費即可。

這些功能受 SageMaker 發行版 1.10 及更高版本支援,並且於所有提供 SageMaker Studio 的 AWS 區域正式推出。若要進一步了解,請參閱使用具備 PySpark 的 LangChain 搭配 Amazon SageMaker Studio 和 EMR Serverless 大規模處理文件的部落格,或在此處閱讀 SageMaker Studio 文件。