投稿日: Oct 1, 2021
Amazon EMR クラスターで実行されている Apache Spark、Apache Hive および Prestoなどのオープンソースフレームワークを、直接 Amazon SageMaker Studio ノートブックから使用して、ペタバイトスケールのデータ分析や機械学習を実行できるようになりました。Amazon EMR はオープンソースフレームワークを自動的にインストールして設定し、標準のオープンソースと互換性があり、より高速な、パフォーマンスに最適化されたランタイムを提供します。例:Amazon EMR の Spark 3.0 は同等のオープンソースに比べ、1.7 倍高速です。Amazon SageMaker Studio は、データの準備、モデルの構築、トレーニング、およびデプロイに必要なすべての ML 開発ステップを実行できる単一のウェブベースのビジュアルインターフェイスを提供します。大量のデータの分析、変換、準備は、データサイエンスと ML ワークフローの基本的なステップです。今回のリリースにて、EMR クラスターで実行されている Apache Spark、Hive および Presto などの一般的なフレームワークを直接 Sagemaker Studio から使用して、データサイエンスや ML ワークフローを簡素化することができます。
このリリースにて、SageMaker Studio から直接 EMR クラスターのリストを視覚的に参照し、数回のクリックで接続することができるようになりました。EMR クラスターに接続したら、Spark SQL、Scala、Python および HiveQL を使用して、データのクエリ、探索、視覚化をインタラクティブに行い、Apache Spark、Hive および Presto のジョブを実行してデータを処理することができます。ジョブは EMR のパフォーマンスに最適化されたバージョンのSpark、Hive および Prestoを使用しているため、高速に実行されます。さらに、クラスターはワークロードに応じて自動的にスケールアップまたはスケールダウンすることができ、スポットインスタンスや Graviton2 ベースのプロセッサーと統合することにより、コストを削減します。 最後に、SageMaker Studio のユーザーは Amazon EMR クラスターに接続するときに、LDAP ベースの認証情報または Kerberos を使用して認証することができます。
これらの機能は EMR 5.9.0 以上でサポートされており、SageMaker Studio が利用可能なすべての AWS リージョンで通常、利用することができす。詳細は、Amazon SageMaker の Amazon EMR にあるインタラクティブなデータ処理のデモをご覧になるか、Amazon SageMaker Studio ノートブックまたは SageMaker Studio のドキュメント(こちら)のインタラクティブなデータエンジニアリングとデータサイエンスのワークフローの実行についてのブログをお読みください。