投稿日: Nov 30, 2022

本日、Amazon SageMaker Data Wrangler において、Data Wrangler で作成したデータ準備フローをリアルタイムとバッチのシリアル推論パイプラインにデプロイすること、および Data Wrangler の処理ジョブの追加設定をサポートしたことを発表します。 

Amazon SageMaker Data Wrangler は、データ処理ワークロードのプロトタイプを作成して本番環境へデプロイする時間を短縮し、SageMaker Processing API を使用して CI/CD パイプラインや MLOps 本番環境と簡単に統合できるようになりました。Data Wrangler でデータ処理ワークロードを実行してスケジューリングし、機械学習 (ML) モデルのトレーニング用のデータを準備する場合、データ準備ワークロードのスケールに応じて Spark 用メモリと出力パーティションの設定のカスタマイズを必要としていました。次に、データを処理して ML モデルをトレーニングすると、データ変換パイプラインと ML モデルの両方を、リアルタイム推論とバッチ推論のユースケース向けに SageMaker エンドポイントの背後にデプロイする必要がありました。続いて、モデルをトレーニングする際に適用されたものと同じデータ処理ステップを推論時に実行するためのデータ処理スクリプトを一から作成する必要がありました。そして、モデルがデプロイされた後は、トレーニングスクリプトとデプロイスクリプトの確実な同期が必要でした。 

今回のリリースでは、Data Wrangler の処理ジョブを実行する際に、Spark 用メモリの構成や出力パーティションの形式を簡単に設定して、スケールに応じたデータ処理を行うことができるようになりました。また、データを準備し、ML モデルをトレーニングした後、(「データフロー」とも呼ばれる) データ変換パイプラインを ML モデルとともに、バッチおよびリアルタイム推論アプリケーションのシリアル推論パイプラインの一部として簡単にデプロイできるようになりました。さらに、Data Wrangler のデータフローを SageMaker Model Registry に登録できるようになりました。Data Wrangler のデータフロービューから [Export to] (エクスポート先) > [Inference Pipeline (via Jupyter Notebook)] (推論パイプライン (Jupyter ノートブック経由)) をクリックすると、リアルタイム推論用の Data Wrangler フローのデプロイを開始できます。ジョブ作成ワークフローの一部として Spark 用メモリの設定が可能になり、送信先ノードの設定の一部としてパーティションの設定が可能になりました。 

これらの機能は、Data Wrangler が現在サポートしているすべての AWS リージョンにおいて、追加料金なしで一般提供されています。SageMaker Data Wrangler の使用開始にあたっては、ブログ記事AWS ドキュメントを参照してください。