Amazon EMR Serverless 上の Apache Spark を Amazon Sagemaker Studio から直接使用

投稿日: 2024年9月4日

Amazon SageMaker Studio ノートブックから直接 Amazon EMR Serverless でペタバイト規模のデータ分析と機械学習を実行できるようになりました。EMR Serverless は、必要なリソースを自動的にプロビジョニングしてスケーリングするため、クラスターを構成、最適化、調整、管理せずに、データとモデルに集中できます。EMR Serverless はオープンソースフレームワークを自動的にインストールして設定し、標準のオープンソースと互換性があり、より高速な、パフォーマンスに最適化されたランタイムを提供します。

今回のリリースにより、SageMaker Studio から直接 EMR Serverless アプリケーションを視覚的に作成して参照し、数回クリックするだけで接続できるようになりました。EMR Serverless アプリケーションに接続したら、Studio ノートブックから直接、Spark SQL、Scala、Python を使用して、データのクエリ、探索、視覚化をインタラクティブに行い、Apache Spark ジョブを実行してデータを処理できます。ジョブは EMR のパフォーマンスに最適化されたバージョンの Spark を使用するため、高速に実行されます。たとえば、EMR 7.1の Spark は、同等のオープンソースの Spark よりも 4.5 倍高速です。EMR Serverless は、アプリケーションの要件を満たすコンピューティングとメモリのリソースをプロビジョニングして迅速にスケーリングする、きめ細かな自動スケーリングを提供し、料金は使用した分にのみかかります。

これらの機能は SageMaker Distribution 1.10 以上でサポートされており、SageMaker Studio が利用可能なすべての AWS リージョンで一般提供されています。詳細については、ブログ Use LangChain with PySpark for Processing documents at massive scale with Amazon SageMaker Studio and EMR Serverless またはこちらの SageMaker Studio ドキュメントを参照してください。