投稿日: Sep 30, 2022
Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。Amazon SageMaker Autopilot は、完全な制御性と可視性を維持しながら、データに基づいて最適な機械学習モデルを自動的にトレーニングおよび調整します。Data Wrangler を使用すると、統一された、データ準備とモデルトレーニングのエクスペリエンスを、Amazon SageMaker Autopilot で数回のクリックするだけで実現できます。この統合は、欠損値補完、序数エンコーダー/ワンホットエンコーダーといった Data Wrangler の特徴変換を、ML 推論用の Autopilot モデルへ組み込み、再利用するために拡張されました。Data Wrangler でデータを準備し、Autopilot を呼び出してモデルをトレーニングすると、トレーニング済みのモデルを Data Wrangler のすべての特徴変換と共に SageMaker シリアル推論パイプラインとしてデプロイできるようになりました。これにより、推論時に Data Wrangler の特徴変換を再利用した生データの自動前処理ができるようになります。現在この機能は、結合、グループ化、連結、時系列変換を使用しない Data Wrangler フローでのみサポートされています。
この機能が公開されるまでは、Data Wrangler で準備されたデータでトレーニングされた Autopilot モデルを使用する場合、推論のために提供されるデータには SageMaker Data Wrangler での前処理が必要でした。リアルタイムとバッチモードの両方で推論用データを提供する前にそのような前処理が必要でした。本日以降は、Data Wrangler でデータを準備して SageMaker Autopilot でモデルをトレーニングした後、Data Wrangler の変換を含めてバッチ予測を行うことも、SageMaker エンドポイントにおいて Data Wrangler の変換をバックグラウンドで実行しながらトレーニング済みモデルをデプロイすることもできます。このように、Data Wrangler の変換が自動的に組み込まれるため、リアルタイム推論でもバッチ推論でも、データを手動で前処理することなく推論を行うことができるようになります。
この新しいエクスペリエンスは、SageMaker Data Wrangler と SageMaker Autopilot の両方を使用できるすべてのリージョンにおいて利用可能です。開始するには、「Automatically Train Models on Your Data Flow (独自のデータフローでモデルを自動的にトレーニングする)」をご覧になるか、ブログ記事をご確認ください。