Amazon Web Services ブログ

Amazon SageMaker Ground Truth を使用してデータラベルを検証および調整し、より高品質のトレーニングデータセットを作成する

機械学習 (ML) アルゴリズムのための非常に正確なトレーニングデータセットを構築することは、反復プロセスです。ラベルがグラウンドトゥルース、または実世界で直接観察できるものを正確に表していることに満足するまで、ラベルを確認し、継続的に調整することが一般的です。ML モデルの品質には正確にラベル付けされたデータが重要であるため、ML の実務者は、データラベルを確認および更新するためのカスタムシステムを構築することがよくありました。ラベルに問題がある場合、ML モデルはグラウンドトゥルースを効果的に学習できず、不正確な予測につながります。

ML の実務者がラベル付きデータの精度を改善した 1 つの方法は、監査ワークフローを使用することです。監査ワークフローにより、レビューアーのグループはラベルの正確性を検証 (ラベル検証と呼ばれるプロセス) したり、必要に応じて調整 (ラベル調整と呼ばれるプロセス) したりすることができます。

Amazon SageMaker Ground Truth は、ラベル検証用の組み込みワークフローと、バウンディングボックスとセマンティックセグメンテーション用のラベル調整機能を備えるようになりました。この新しいワークフローを使用して、既存の Amazon SageMaker Ground Truth ラベル付けジョブを検証または調整ジョブにチェーンするか、既存のラベルを検証または調整ジョブにインポートできます。

この記事では、バウンディングボックスラベルの両方のオプションについて説明します。このチュートリアルでは、ラベル付けジョブの実行に慣れているか、既存のラベルがあることを前提としています。詳細については、「Amazon SageMarker Ground Truth – 高い精度のデータセットを構築し、ラベル付けのコストを最大 70% 削減」を参照してください。

完了した Amazon SageMaker Ground Truth ラベル付けジョブのチェーン

完了したラベル付けジョブをチェーンするには、次の手順を実行します。

  1. Amazon SageMaker Ground Truth コンソール から、[ラベル付けジョブ] を選択します。
  2. 目的のジョブを選択します。
  3. [アクション] ドロップダウンメニューから、[チェーン] を選択します。

次のスクリーンショットは、[ラベル付けジョブ] ページを示しています。

詳細については、「ラベル付けジョブのチェーン」を参照してください。

[ジョブの概要] ページには、チェーンされたジョブに使用した設定が表示されます。変更がない場合は、次のセクション [タスクタイプ] に移動できます。

ラベル検証の設定

ラベル検証を使用するには、[タスクタイプ] から、[ラベル検証] を選択します。

[タスクタイプ] ページの次のスクリーンショットをご覧ください。

[ワーカー] セクションは、チェーンされたラベル付けジョブに対して行った選択に合わせて事前設定されています。別のワークフォースを選択するか、ラベル検証ジョブに同じ設定を使用することができます。詳細については、「ワークフォースの管理」 を参照してください。

検証ラベルを定義できます。たとえば、Label Correct、Label Incorrect – Object(s) Missed や Label Incorrect – Box(es) Not Tightly Drawn です。

また、左側のパネルで指示を指定して、ラベルを確認する方法について校閲者をガイドすることもできます。

[ラベル検証ツール] ページの次のスクリーンショットをご覧ください。

ラベル調整の設定

ラベル調整を実行するには、[タスクタイプ] セクションから [バウンディングボックス] を選択します。[タスクタイプ] ページの次のスクリーンショットをご覧ください。

[ワーカー] セクションを設定し、ラベル付けツールをセットアップするための次の手順は、検証ジョブの作成に似ています。1 つの例外は、[既存ラベルの表示オプション] セクションで既存のラベルの表示を選択する必要があることです。次のスクリーンショットをご覧ください。

Amazon SageMaker Ground Truth の外部から既存のラベルをアップロードする

Amazon SageMaker Ground Truth の外部でデータにラベルを付けた場合でも、ラベルを確認または調整するためにサービスを使用できます。次の手順に従って、既存のラベルをインポートします。

  1. データと既存のラベルの両方で拡張マニフェストを作成します。たとえば、次のコード例では、source-ref はラベル付けされた画像を指し、「bound-box」属性はラベルです。
    {"source-ref": "<S3 location of image 1>", "bound-box": <bounding box label>}
    {"source-ref": "<S3 location of image 2>", "bound-box": <bounding box label>}
  2. 拡張マニフェストを Amazon S3 に保存します。マニフェストは画像と同じ S3 バケットに保存する必要があります。また、ジョブのセットアップ時にこれを指定する必要があるため、ラベルの属性名 (この記事では bound-box) を覚えておいてください。さらに、ラベルが Amazon SageMaker Ground Truth で規定されているラベル形式に準拠していることを確認してください。たとえば、バウンディングボックスジョブ出力でバウンディングボックスのラベル形式を確認できます。これで、検証および調整ジョブを作成する準備ができました。
  3. Amazon SageMaker Ground Truth コンソールから、新しいラベル付けジョブを作成します。
  4. [ジョブの概要] の [入力データセットの場所] で、作成した拡張マニフェストの S3 パスをポイントします。[ジョブの概要] ページの次のスクリーンショットをご覧ください。
  5. 検証または調整ジョブをセットアップするときに、前述の手順に従って、タスクタイプワーカー、およびラベル付けツールを設定します。
  6. [既存ラベルの表示オプション] の [ラベルの属性名] で、ドロップダウンメニューから拡張マニフェストの名前を選択します。既存ラベルの表示オプションの次のスクリーンショットをご覧ください。

結論

ML イニシアチブを達成するには、非常に正確なトレーニングデータセットが不可欠であり、Amazon SageMaker Ground Truth を介してラベルの検証と調整を実行する組み込みのワークフローが用意されています。この記事では、新しいラベル検証および調整機能の使用方法について説明しました。完了したラベル付けジョブをチェーンするか、ラベルをアップロードできます。Amazon SageMaker Ground Truth コンソールにアクセスして開始しましょう。

いつものように、AWS では皆さんのフィードバックをお待ちしています。コメントや質問があればお寄せください。


著者について

Sifan Wang は、AWS AI のソフトウェア開発エンジニアです。彼はビッグデータを処理するスケーラブルなシステムと、データから学習するインテリジェントなシステムの構築に焦点を当てています。余暇には、旅行やジムでの運動を楽しんでいます。

 

 

 

Carter Williams は、コンピュータービジョン UI に重点を置いた Mechanical Turk Requester CX チームのウェブ開発エンジニアです。彼は、ウェブテクノロジーを使用して、直感的な方法で正確な注釈データを収集する新しい方法を学び、開発するよう努めています。空き時間には、ペイントボール、ホッケー、スノーボードを楽しんでいます。

 

 

 

Vikram Madan は Amazon SageMaker Ground Truth のプロダクトマネージャーです。機械学習ソリューションの構築を容易にする製品の提供に、力を注いでいます。余暇には、長距離のランニングやドキュメンタリーの鑑賞などをして過ごしています。