Amazon SageMaker Data Labeling
機械学習モデルのトレーニング向けの高品質データセットを作成
高品質なラベル付きデータを迅速に取得
データラベリングのワークフォースを選択
データラベリング作業の可視性の向上
高品質なデータセットを生成して生成系 AI モデルをカスタマイズ
Amazon SageMaker は、画像、テキストファイル、動画などの未加工データにラベルを追加し、ラベル付き合成データを生成して、機械学習 (ML) モデルのトレーニング用の高品質なデータセットを作成できます。SageMaker には、Amazon SageMaker Ground Truth Plus と Amazon SageMaker Ground Truth の 2 つのオプションがあります。これらを利用して、エキスパートによるデータラベリングワークフローの作成および管理の代行や、お客様自身によるデータラベリングワークフローの管理を柔軟に選択することが可能です。
Amazon SageMaker Ground Truth Plus
SageMaker Ground Truth Plus は、ラベリングアプリケーションを構築したり、ラベリングのワークフォースを自分で管理したりすることなく、高品質のトレーニングデータセットを作成できるフルマネージドサービスです。SageMaker Ground Truth Plus は、ML タスクのトレーニングを受けたエキスパートを派遣し、データセキュリティ、プライバシー、コンプライアンスの要件を満たすことができます。一方で、データラベリングにかかるコストを 40% 削減できるよう支援します。データをアップロードするだけで、SageMaker Ground Truth Plus がお客様に代わってデータラベリングワークフローとワークフォースを作成および管理します。
SageMaker Ground Truth Plus は高品質なデータセットを作成して、質問への回答から画像や動画の生成まで、生成系 AI タスクの基盤モデルを微調整できます。また、熟練したエキスパートがモデルのアウトプットをレビューして、それが人間の好みに合っているかどうかを確認することもできます。さらに、SageMaker Ground Truth Plus を使用すると、アプリケーションビルダーは業界または企業データを使用してモデルをカスタマイズし、アプリケーションが好みの音声やスタイルを表現できるようにすることができます。
Amazon SageMaker Ground Truth
独自のデータラベリングワークフローやワークフォースを柔軟に構築および管理したい場合は、SageMaker Ground Truth を使用できます。SageMaker Ground Truth は、データのラベル付けを簡単に行うことができるデータラベリングサービスで、Amazon Mechanical Turk、サードパーティーベンダー、または独自のプライベートワークフォースを介して人間のアノテーターを使用するオプションを提供します。
また、実世界のデータを手動で収集、ラベル付けすることなく、ラベル付き合成データを生成することができます。SageMaker Ground Truth は、お客様に代わって何十万もの自動ラベル付けされた合成画像を生成することができます。
仕組み
-
SageMaker Ground Truth Plus でデータをラベル付け
-
SageMaker Ground Truth でデータをラベル付け
-
ラベル付けされた合成データの生成
-
SageMaker Ground Truth Plus でデータをラベル付け
-
Amazon SageMaker Ground Truth Plus は、ラベリングアプリケーションを構築したり、ラベル付けのためのワークフォースを管理したりすることなく、質の高いトレーニングデータセットを作成することができます。
-
SageMaker Ground Truth でデータをラベル付け
-
Amazon SageMaker Ground Truth では、お客様独自のデータラベリングワークフローとデータラベリングワークフォースの構築および管理が可能です。
-
ラベル付けされた合成データの生成
-
Amazon SageMaker Ground Truth は、ラベル付けされた合成データの生成に役立ちます。
ユースケース
コンピュータビジョン
画像や動画のアノテーションツール一式を使用して、画像や動画を分類したり、セマンティックセグメンテーションを実行して非常に詳細な物体を認識したり、オブジェクトを検出して追跡したりできます。
3D LIDAR ナビゲーション
オブジェクトを検出して追跡し、セマンティックセグメンテーションを実行して、LIDAR 3D ポイントクラウドデータ内の非常に詳細なオブジェクトを認識します。