投稿日: Jan 21, 2022
Amazon SageMaker Pipelines は、お客様がモデル構築ステップをワークフローとして定義し、オーケストレートすることができるフルマネージドサービスです。本日は、機械学習エンジニアが Amazon EMR クラスターで Apache Spark、Presto、Hive などのオープンソースフレームワークを使用してデータ処理アプリケーションを実行することができる新しいステップタイプをご紹介します。
SageMaker Pipelines では、様々なステップ (処理、トレーニング、モデルの登録、コールバックなど) がすでに用意されており、これらのステップにより、お客様はモデル構築のワークフローを柔軟に定義することができます。しばしば、お客様は EMR で動作する Spark、Hive、Presto などのオープンソースフレームワークを使用して、EMR クラスターでデータ処理タスク (特徴エンジニアリング) を実行し、モデル構築プロセスを行いたいと考えていらっしゃいます。新たに起動した SageMaker Pipelines EMR ステップを使用することで、お客様はこれらのタスクを EMR クラスターの EMR ジョブとして送信することができます。SageMaker Pipeline EMR ステップでは、お客様は EMR クラスターのクラスター ID と、クラスターで実行する必要のある EMR ジョブの実行プロパティを提供する必要があります。SageMaker パイプラインは、セキュアな接続の確立、EMR ワークロードの送信、および完了までのそれらの積極的な追跡を行います。作成された SageMaker Pipelines EMR ステップは、他の SageMaker Pipelines ステップと共に機械学習モデル構築ワークフローに統合することができます。
この機能は、Amazon SageMaker が利用できるすべての AWS リージョンでご利用いただけます。スタートするために、SageMaker Studio またはコマンドラインインターフェイスから EMR ステップを使用して、新しい SageMaker Pipeline を作成します。詳細については、ドキュメントページを参照してください。