投稿日: Oct 21, 2022

Amazon SageMaker Data Wrangler で Data Wrangler 処理ジョブのスケジューリングが可能になりました。Amazon SageMaker Data Wrangler は、機械学習 (ML) 用データの集約と準備に要する時間を、数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。これまで、データ処理ジョブのスケジューリングには、サーバーレスコンピューティング機能およびイベントバスサービスとの統合が不可欠でした。さらに、このプロセスには、コードを記述し、データ処理ジョブを本番環境でスケジューリングする作業も必要でした。こうしたさまざまな機能を統合し、コードを記述してワークフローを調整することは、データサイエンティスト、データエンジニア、ML エンジニアにとって、骨の折れる時間のかかる作業になりがちです。

Data Wrangler でスケジューリングがサポートされたことにより、Data Wrangler の処理ジョブを数クリックでスケジューリングできるようになりました。ジョブは、特定の曜日と時間で実行するようにスケジューリング可能です。またスケジュールは、CRON 式で入力できるので、カスタマイズ性と柔軟性に優れています (毎月第 1 水曜日にジョブを実行するようにスケジューリングするなど)。Data Wrangler 処理ジョブには、スケジュールを 2 つまでアタッチ可能です。希望するスケジュールを入力すると、詳細な確認のため、次に実行される 5 つのジョブのプレビューが Data Wrangler に表示されます。このスケジューリング機能には、Data Wrangler の [Create Job] (ジョブを作成) ワークフロー内でアクセス可能です。

この機能は、Data Wrangler が現在サポートしているすべての AWS リージョンで、追加料金なしで一般提供されています。SageMaker Data Wrangler を使用してデータ処理ジョブのスケジューリングを開始する方法については、AWS ドキュメントをご覧ください。