投稿日: Dec 21, 2020
Amazon SageMaker Studio は機械学習のための初の完全統合開発環境 (IDE) を提供します。データサイエンティストとデベロッパーは、ワンクリックで SageMaker Studio ノートブックをすばやく起動し、データセットを探索および準備して、単一のウィンドウで機械学習モデルを構築、トレーニング、およびデプロイできます。Amazon EMR は、大量のデータを迅速、容易に、かつコスト効果よく処理するためのウェブサービスです。本日より、お客様は Studio ノートブックを使用して Amazon EMR クラスターに簡単かつ安全に接続し、分析とレポート、モデルトレーニング、または推論のために大量のデータを準備できます。
データの準備は、機械学習ワークフローにおける重要なステップです。SageMaker Studio を使用すると、ご希望に応じてデータを準備するためのさまざまなツールにアクセスできます。ビジュアルインターフェイスをご希望の場合は、Amazon SageMaker Data Wrangler を使用して Amazon S3、Amazon RedShift、または Amazon Athena に接続し、SageMaker Studio からのデータにアクセス、視覚化、および分析できます。コードの記述をご希望の場合は、SageMaker Studio ノートブックを使用して、ライブラリと SDK を使用してインタラクティブにデータを準備したり、組み込みの Spark コンテナを備えた Amazon SageMaker Processing を使用して大量のデータをバッチで処理したりすることもできます。ただし、Studio ノートブックを既存の EMR クラスターに接続してデータにアクセスして処理することをご希望の場合は、Spark ジョブを実行したり、Hive テーブルにクエリを実行したりする前に、環境を手動でセットアップし、独自の Sparkmagic カーネルを用意し、ターゲットクラスター情報を設定し、認証用の Kerberos などのツールをインストールする必要があります。
Amazon SageMaker Studio には、大量のデータを処理するためにノートブックを EMR クラスターにすばやく簡単かつ安全に接続できるツールが組み込まれるようになりました。PySpark カーネルを使用して組み込みの SageMaker イメージから Studio ノートブックを作成し、組み込みのコマンドを使用して EMR クラスターに接続し、数ステップでデータのクエリ、分析、および処理を開始できます。セキュリティを強化するために、Kerberos 認証を使用して EMR クラスターに接続できます。このサービスは、Amazon SageMaker Studio が利用可能なすべての AWS リージョンでご利用いただけます。詳細については、Amazon SageMaker Studio のドキュメントをご参照ください。