投稿日: Dec 1, 2021
本日、Amazon SageMaker Ground Truth Plus の一般提供の開始を発表します。これは、質の高いトレーニングデータセットを迅速に作成し、コストを最大 40% 削減することを可能にする新しいターンキーデータラベリングサービスです。
機械学習 (ML) モデルをトレーニングするには、データサイエンティストは、大規模で質の高いラベル付きデータセットを必要とします。機械学習の導入が増加するにつれて、ラベル付けのニーズも高まっています。この事実を背景として、データサイエンティストは、データラベリングワークフローの構築とデータラベリングのための労働力の管理に数週間を費やすことを余儀なくされています。残念ながら、これはイノベーションを遅らせ、コストを増加させます。データサイエンティストが機械学習モデルの構築、トレーニング、およびデプロイに時間を費やせるようにするために、データサイエンティストは通常、データオペレーションマネージャーとプログラムマネージャーで構成される他の社内チームに質の高いトレーニングデータセットを作成するよう依頼します。しかしながら、これらのチームは通常、質の高いトレーニングデータセットを提供するために必要なスキルを活用する術を持っていません。このことは、機械学習の結果に影響を及ぼします。社内のリソースを消費することなく、質の高いトレーニングデータセットを大規模に作成することを可能にするターンキーサービスをご利用いただけるとしたらどうでしょうか? ここで Amazon SageMaker Ground Truth Plus の出番です。
Amazon SageMaker Ground Truth Plus を使用すると、データサイエンティストだけでなく、データオペレーションマネージャーやプログラムマネージャーなどのビジネスマネージャーも、データラベリングアプリケーションの構築とラベル付けのための労働力の管理に関連する付加価値を生まない手間のかかる作業を排除して、質の高いトレーニングデータセットを簡単に作成できます。ラベル付けの要件とともにデータを共有するだけで、Ground Truth Plus は、これらの要件に基づいてデータラベリングワークフローを設定および管理します。そこから、さまざまな機械学習タスクのトレーニングを受けたエキスパートの労働力がデータラベリングを実行します。Ground Truth Plus を使用するに際しては、機械学習に関する深い専門知識やワークフローの設計および品質管理に関する知識さえも不要です。
Ground Truth Plus は、アクティブラーニング、事前のラベル付け、機械検証などの機械学習の手法を使用します。これにより、出力データセットの質が向上し、データラベリングにかかるコストが削減されます。Ground Truth Plus は、データラベリングオペレーションと品質管理に透明性をもたらします。このサービスを利用すると、複数のプロジェクトでトレーニングデータセットの進行状況を確認し、日々のスループットなどのプロジェクトメトリクスを追跡し、ラベルの質を検査し、ラベル付けされたデータに関するフィードバックを提供できます。Ground Truth Plus は、コンピュータビジョン、自然言語処理、音声認識など、さまざまなユースケースに使用できます。
Amazon SageMaker Ground Truth Plus は、現在、米国東部 (バージニア北部) AWS リージョンで一般的にご利用いただけます。Amazon SageMaker Ground Truth Plus の詳細については、ブログ投稿をお読みいただくか、Ground Truth Plus のドキュメントを参照してください。また、使用を開始するには、SageMaker データラベリングのウェブページまたは Ground Truth Plus コンソールにアクセスしてください。