投稿日: May 1, 2023
Amazon SageMaker Data Wrangler を使用すれば、機械学習 (ML) 用データの集約と準備にかかる時間を、数週間から数分に短縮できます。SageMaker Data Wrangler を使用すれば、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データの選択、探索、クレンジング、処理といったデータ準備ワークフローの各ステップを、単一のビジュアルインターフェイスから実行できます。
本日より、Amazon SageMaker Data Wrangler の新機能を使用して、ラベル付け、トレーニング、推論用の画像データを準備できるようになりました。Amazon S3 から画像をプレビューしてインポートしたり、さまざまな組み込みの画像変換機能を使用して画像データをクリーンアップし、標準化して、品質を高めたりできます。これらの組み込み変換機能には、サイズ変更、重複削除、回転、反転、グレースケール化、コントラストの強調、ぼかし、ノイズの追加などが含まれます。Data Wrangler は、カスタムコードや組み込みコードスニペットを使用した外れ値の検出や、画像からのテキスト抽出などの高度なユースケースもサポートしています。これらのコードスニペットには、Amazon SageMaker Jumpstart を使用して事前トレーニング済みのモデルを利用し、事前にデプロイされたモデルのエンドポイントを呼び出して高度な分析や変換を実行する方法の例が含まれています。インタラクティブモードでサンプリングされた画像データに対するレシピを作成したら、ビジュアルインターフェイスを介して PySpark ジョブを作成し、データセット内の画像すべての処理をスケーリングできます。
Data Wrangler は、現在 Data Wrangler のサポート対象となっているすべてのリージョンで、画像データの準備をサポートしています。詳細については、こちらのブログ記事および AWS テクニカルドキュメントを参照してください。