Amazon SageMaker Ground Truth Plus
エキスパートワークフォース
Amazon SageMaker Ground Truth Plus は、機械学習 (ML) タスクのトレーニングを受けたエキスパートワークフォースがラベル付けを行い、データセキュリティ、プライバシー、コンプライアンスの要件を満たすことができます。例えば、音声ファイルのラベリングに精通した人材が必要な場合は、SageMaker Ground Truth Plus に提供するガイドラインでこの要件を指定すると、サービスが自動的にそのスキルを持つラベラーを選択します。
エンドツーエンドのデータラベリング管理
Amazon SageMaker Ground Truth Plus を使用すると、ラベリングアプリケーションを構築したり、ラベル付けのための労働力を自ら管理したりすることなく、質の高いトレーニングデータセットを作成することができます。Amazon S3 にラベリング要件と一緒にデータをアップロードすることができます。データをアップロードした後は、SageMaker Ground Truth Plus がデータラベリングワークフローの設定と運用をお客様に代わって行います。
機械学習ラベリング技術
Amazon SageMaker Ground Truth Plus は、アクティブラーニング、事前のラベル付け、機械検証などの機械学習テクニックを使用し、出力データセットの品質を高め、データラベリングのコストを削減します。マルチステップのラベリングワークフローには、Ground Truth Plus が、ラベル付けが必要なオブジェクト (画像、音声記録、テキストのセクションなど) を選択することでコストを削減できるアクティブラーニングの機械学習モデルと、選択したデータにあらかじめラベル付けすることで人間の労力を削減できる機械学習モデルが含まれています。Ground Truth Plus は、機械検証で潜在的なエラーを特定し、それを人間によるレビューの追加ラウンドに送ります。これにより、人為的なエラーを検出し、ラベルの品質を大幅に向上させます。さらに、Ground Truth Plus はまた、直感的なユーザーインターフェイスを備えた、「自動 3D キューボイドスナップ」、「ビデオラベリングでの次の予測」、「自動セグメント」などの補助的なラベル付け機能を使用します。これにより、データのラベル付け作業にかかる時間を短縮すると同時に品質を向上させることができます。
インタラクティブなダッシュボード
SageMaker Ground Truth Plus には、インタラクティブなダッシュボードとユーザーインターフェイスを提供しており、複数のプロジェクトにおけるトレーニングデータセットの進捗状況のモニタリング、日々のスループットなどのプロジェクトメトリクスの追跡、ラベルの品質検査、ラベル付きデータへのフィードバックなどを行うことができます。
Amazon SageMaker Ground Truth
3D point clouds
3 次元 (3D) 点群は、光検出と測距 (LIDAR) デバイスを使用してキャプチャされるのが最も一般的です。これは、単一の時点での物理空間の 3D での理解に資するものです。SageMaker Ground Truth は、オブジェクト検出、オブジェクトトラッキング、セマンティックセグメンテーションなど、3D 点群データのラベリングワークフローをサポートしています。
オブジェクトの検出
オブジェクト検出ワークフローを使用すると、3D 点群内の任意オブジェクトを識別してラベル付けすることができます。例えば、自律型走行車のユースケースでは、車両、車線、歩行者を正確にラベリングすることができます。

オブジェクトのトラッキング
オブジェクトトラッキングワークフローを使用すると、任意のオブジェクトの軌跡を追跡することができます。例えば、自律型走行車は、他の車両、車線、歩行者の動きを追跡する必要があります。Ground Truth を使用すると、3D 点群データのシーケンスにわたって、これらのオブジェクトの軌跡を追跡することができます。

セマンティックセグメンテーション
セマンティックセグメンテーションのワークフローを使用すると、3D 点群のポイントを事前に指定したカテゴリにセグメンテーションすることができます。例えば、自律型走行車の場合、Ground Truth は道路、葉っぱ、構造物を分類することができます。

動画
SageMaker Ground Truth は、動画オブジェクトの検出、動画オブジェクトの追跡、動画クリップの分類など、組み込みのワークフローを備えた一般的な動画ラベリングの使用例をサポートしています。
動画のオブジェクト検出
動画オブジェクト検出ワークフローを使用すると、一連の動画フレーム内で関心のあるオブジェクトを特定できます。 たとえば、自律型車両の知覚システムを構築する場合、車両の周囲のシーンによって他の車両を検出できます。

動画のオブジェクトトラッキング
動画オブジェクト追跡ワークフローを使用すると、一連の動画フレームにわたって対象オブジェクトを追跡できます。たとえば、スポーツゲームのユースケースでは、プレイ期間全体にわたってプレイヤーに正確なラベルを付けることができます。

動画クリップの分類
動画クリップ分類ワークフローを使用すれば、動画ファイルを事前に指定されたカテゴリに分類できます。たとえば、スポーツのプレイや混雑した交差点での交通渋滞など、動画を最もよく表す事前指定のカテゴリを選択できます。

イメージ
SageMaker Ground Truth は、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、画像データのラベリングワークフローが組み込まれています。
画像の分類
画像の分類は、実世界の表現に基づいて画像を識別するプロセスです。このプロセスでは、事前に定義されたラベルのセットに対して画像を分類します。画像の分類は、シーンの検出など、画像の背景を考える必要があるモデルに最適です。例えば、他の車両、歩行者、信号機、標識などのさまざまな実世界のオブジェクトを検出するために、自律型走行車用の画像分類モデルを構築することができます。

オブジェクトの検出
オブジェクト検出ワークフローを使用して、画像内の任意のオブジェクト (車両、歩行者、犬、猫など) を識別し、ラベル付けすることができます。ラベル付けタスクでは、画像内の任意の対象物の周囲に 2 次元 (2D) のバウンディングボックスを描画します。コンピュータビジョンのモデルは、境界ボックスにラベルが付けられた画像でトレーニングされており、ボックス内のピクセルが特定のラベルに対応していることを学習します。

セマンティックセグメンテーション
セマンティックセグメンテーションワークフローを使用して、モデルが学習する必要のあるラベルに対応する画像の特定の部分に正確にラベルを付けることができます。個々のピクセルがラベル付けされるため、精度の高い学習データを得ることができます。例えば、画像内の車の不規則な形状は、セマンティックセグメンテーションで正確にとらえることができます。

テキスト
SageMaker Ground Truth では、テキストの分類や名前付きエンティティの認識など、テキストデータのラベリングワークフローが組み込まれています。
テキストの分類
テキストの分類では、事前に定義された複数のラベルのいずれかにテキスト文字列を分類します。各ラベルへのテキストの分類は、自然言語処理 (NLP) モデルで製品の説明、映画のレビューなどのトピックや感情などを特定する際によく使用されます。

名前付きエンティティ認識
名前付きエンティティ (NER) は、テキストデータから名前付きエンティティと呼ばれるフレーズを探し出し、「人」、「組織」、「ブランド」などのラベルを付けて分類します。 例えば、「最近 Amazon Prime に登録した」という文では、「Amazon Prime」が名前付きエンティティとなり、「ブランド」に分類されます。

カスタムワークフロー
Ground Truth では、自分だけのラベル付けワークフローを作成することができます。カスタムワークフローは、3 つのコンポーネントで構成されています。(1) ラベル付けタスクを完了するために必要なすべての指示とツールをラベル付け担当者に提供する UI テンプレート、(2) AWS Lambda 関数にカプセル化された前処理のロジック、(3) AWS Lambda 関数にカプセル化された後処理のロジックです。豊富な UI テンプレートが利用可能なほか、独自の Javascript/HTML テンプレートをアップロードすることも可能です。前処理の Lambda 関数は、ラベル付けされるデータを提供し、ラベル付け担当者のための任意の追加のコンテキストを追加することができ、後処理の Lambda 関数は、精度向上アルゴリズムを挿入するために使用することができます。このアルゴリズムは、人が行った注釈の品質を評価したり、同じデータが複数のラベル付け担当者に提供された場合に、何が「正しい」かについてのコンセンサスを見つけることができます。SageMaker Ground Truth コンソールを使用して、3 つのコンポーネントをすべてアップロードすることができます。

人材
SageMaker Ground Truth は、(1) 自社の従業員、(2) AWS Marketplace で利用可能なサードパーティのデータラベル付けサービスプロバイダー、(3) Amazon Mechanical Turk を利用したクラウドソーシング型の人材などの、データのラベル付けを行うための人的リソースの選択肢を複数サポートしています。


