Spark Connect を使用して Amazon EMR Serverless でインタラクティブワークロードを実行

投稿日: 2026年6月9日

Amazon EMR Serverless で Spark Connect を使ったインタラクティブセッションがサポートされるようになりました。これにより、Amazon SageMaker Unified Studio のマネージドノートブックだけでなく、Jupyter や Visual Studio Code などのお好みのノートブック環境や IDE からも Apache Spark アプリケーションを開発および実行できます。また、EMR コンソールでアクティブなセッションと完了済みセッションをモニタリングしたりデバッグしたりできるほか、個々のセッションのコストと使用状況を詳細に把握することもできます。 

 

インタラクティブセッションでは、セルやスクリプトにわたってシームレスに継続する永続的な Spark コンテキストを利用できます。そのため、1 つの環境内でローカルの Python コード実行とリモートの Spark 処理を組み合わせることができます。これは、Spark Connect のクライアント/サーバーアーキテクチャによって実現されています。このアーキテクチャでは、クライアントが Spark ドライバーから分離されるため、Spark インフラストラクチャを EMR Serverless で独立して実行しながら、使い慣れた開発環境とツールを引き続き利用できます。このアーキテクチャにより、アドホックなデータ探索、反復的なステップバイステップのデバッグ、本番環境にデプロイする前の段階的な PySpark ジョブ開発などのワークフローが可能になります。  オブザーバビリティについては、Spark UI によるリアルタイムのセッションモニタリング、Spark History Server による履歴追跡、EMR コンソールまたは API/CLI/SDK からのセッション管理を利用できます。

 

Amazon EMR Serverless の Spark Connect は、Amazon EMR Serverless が提供されているすべての AWS リージョンで、EMR リリース 7.13 から利用できます。SageMaker Unified Studio は、サポート対象リージョンで利用できます。開始するには、EMR Serverless のインタラクティブセッションに関するユーザーガイドまたは Amazon SageMaker Unified Studio 入門ガイドを参照してください。