投稿日: Oct 17, 2022

本日、Amazon SageMaker Data Wrangler で変換の再適合 (Refit) がサポートされるようになったことを発表します。XgBoost などのアルゴリズムでデータを使用できるようにするために、データサイエンティストはワンホットエンコーディングなどの変換方法を使用して、数値以外の値を数値に変換する必要があります。ワンホットエンコーディングのような変換はデータ依存であるため、これらの変換は適合変換と呼ばれることがよくあります。データが時間とともに変化し続けるため、これらの変換はデータの変化を考慮して更新または再適合させる必要があります。さらに、サンプルデータセットで作業するときは、サンプルデータセットとより大きなデータセットの間での変化を考慮して変換を更新する必要があります。ワンホットエンコーディングなどの変換を使用する場合、データ準備パイプラインで追跡やキャプチャを行うときに必要な追加情報が生成されます。この情報が省略されたり、正しく追跡されなかったりすると、データ準備プロセスでエラーが発生する可能性があります。変換の再適合がサポートされていなかったため、多くのデータサイエンティストにとって、変換を適合させた後のバージョンを使用するタイミングや、新しいデータに変換を再適合させるタイミングを簡単に指定する方法がありませんでした。また、データサイエンティストにとって、新しいデータセットで再適合させるときに、更新したバージョンの変換パイプラインを生成することも簡単ではありませんでした。 

Data Wrangler では、今後、適用可能なすべての変換について、適合済みの変換をデータフロー内で追跡するようになりました。これらの適合済みの変換を使用して、必要に応じて新しいデータをより簡単に準備できるようになりました。ユーザーは、変換をいつ再利用するか、データの新しい変換をいつ再適合させるかを指定できます。再適合機能は、Data Wrangler 処理ジョブを起動する際の Data Wrangler ビジュアルインターフェイスと、ジョブ作成ノートブック内の両方で使用できます。ジョブ作成ワークフローで [trained parameters] (トレーニング済みパラメーター) > [refit] (再適合) を選択するだけで、フロー内の変換を再適合させることができます。Data Wrangler は、変換を再適合させるための更新値が格納された新しいフローファイルも自動的に生成します。

この機能は、Data Wrangler が現在サポートしているすべての AWS リージョンにおいて、追加料金なしで一般提供開始されます。SageMaker Data Wrangler の使用を開始するには、AWS ドキュメントを参照してください。