データのラベル付けの自動化

Amazon SageMaker Ground Truth では、機械学習を使用してデータのラベル付けを自動化できます。SageMaker Ground Truth では、まずデータのランダムなサンプルが選択され、人がラベルを付けることができるよう送信されます。人によるラベル付けの結果は、ラベル付けモデルのトレーニングの際に、raw データの新しいサンプルに自動的にラベルを付けるために使用されます。モデルによるデータへのラベル付けの品質がお客様の設定したしきい値以上になる場合、そのラベルが確定されます。信頼性スコアがしきい値を下回る場合、データが人に送信され、人がラベルを付けます。人がラベルを付けたデータの一部は、ラベル付けモデルの新しいトレーニングデータセットを生成するために使用され、モデルは精度を向上させるために自動的に再トレーニングされます。raw データの各サンプルにラベルを付けるために、このプロセスが繰り返されます。繰り返されるたびに、そのラベル付けモデルでは、raw データに自動的にラベルを付ける性能が向上し、人に転送されるデータは減少します。 

ラベル付けの専門家と柔軟に連携

Amazon SageMaker Ground Truth では、人によるラベル付けの方法が複数用意されており、お客様は最適な方法を SageMaker Ground Truth コンソールで直接選択できます。特に組織外に持ち出すことができないデータを処理する場合などは、社内のチームがラベル付け作業を行うことがあります。

一方、ラベル付け担当者の人数を増やす必要があり、データに機密情報や個人識別情報が含まれていない場合は、Amazon Mechanical Turk を使用すれば、世界中で 50 万社を超える請負業者を 24 時間年中無休、オンデマンドで利用できます。Mechanical Turk はクラウドソーシング向けの市場で、お客様のラベル付け作業の需要と、それらの作業をリモートで実行できる世界各地の作業者がマッチングされます。

または、データのラベル付けを専門とするサードパーティーのベンダーを利用することもできます。Amazon では、ラベルの品質が高く、セキュリティプロセスを遵守するベンダーのみを選別しています。これらのベンダーによるラベル付けサービスは、AWS Marketplace から利用できます。お客様のニーズに最適なベンダーを選択できるよう、料金やお客様レビューなど、さまざまな関連情報が記載されています。

人によるラベル付けの手順を簡単に提供

Amazon SageMaker Ground Truth では、ラベル付け担当者が整合性を確保できるよう、ラベル付けのガイダンスを提供できます。ラベル付け担当者は、それらの詳細な手順を各自のラベル付けのインターフェイス内で確認できます。ラベル付け担当者が高品質で正確な作業をできるよう、手順には、良いラベルと悪いラベルの図を含めることができます。これらの手順は随時更新できます。これにより、ラベル付け担当者の作業が不適切であることに気付いた場合に詳細情報を追加することや、ニーズの変化に基づいて手順を調整することが容易になります。手順のサンプルを以下に示します。 

SamurAI Instructions for Bounding Box

ワークフローを使用してラベル付けタスクを簡略化

Amazon SageMaker Ground Truth には、ラベル付けのワークフローが組み込まれています。これにより、ラベル付け担当者はタスクをステップバイステップで実行でき、作業品質の向上に役立つツールを利用できます。組み込みのワークフローは、現在、オブジェクトの検出、画像の分類、テキストの分類、セマンティックセグメンテーションのラベル付けといったジョブに利用できます。 

SageMaker Ground Truth では、組み込みのワークフローを使用する以外に、カスタムワークフローをアップロードすることもできます。カスタムワークフローは、お客様が提供する HTML インターフェイスと精度改善アルゴリズムによって構成されます。HTML インターフェイスでは、ラベル付け担当者がタスクを実行するために必要な手順とツールがすべて提供されます。精度改善アルゴリズムは、人が作成するラベルの品質が SageMaker Ground Truth によってどのように評価されるべきかをお客様が指定する機能です。このアルゴリズムは、複数のラベル付け担当者に同じデータが提供された場合に、何が「正解」であるかについての意見を一致させるために使用されます。また、データの品質が低くなりがちなラベル付け担当者を特定し、意見の採用率を下げるためにも使用されます。HTML インターフェイスと精度改善アルゴリズムはいずれも、SageMaker Ground Truth コンソールからアップロードできます。 

オブジェクトの検出

画像内のオブジェクトを特定し、ラベルを付けるために、境界ボックスのワークフローを使用できます。境界ボックスは、画像の 1 つまたは複数の要素の周囲に描画される 2 次元のボックスです。コンピュータビジョンのモデルは、境界ボックスにラベルが付けられた画像でトレーニングされており、ボックス内のピクセルが特定のラベルに対応していることを学習します。これは画像にラベルを付けるための非常に高速で安価な方法です。ただし、ボックスにはラベルの対象とは関係のないピクセルが含まれることもよくあるため、モデルの精度が高くなるまでに、大量のトレーニングデータが必要になることがあります。

下の写真には、境界ボックスのインターフェイスが表示されています。例として、指定された画像内のすべての犬を特定するタスクが実行されています。このインターフェイスによって、境界ボックスの良い例と悪い例をはっきり理解し、高い精度を保つことができます。またラベル付けの手順全体へのリンクや、境界ボックス作成用の明瞭で合理化された UI もあります。 

Bounding box

画像の分類

画像の分類では、事前に定義された複数のラベルのいずれかに画像が分類されます。このタスクはオブジェクトの検出とは異なり、画像内の個々の要素にではなく、画像全体にラベルが付けられます。画像の分類は、シーンの検出など、画像の背景を考える必要があるモデルに最適です。例えば、下の画像では、指定された画像内で行われているスポーツをラベル付け担当者が特定します。 

Image classification

テキストの分類

テキストの分類では、事前に定義された複数のラベルのいずれかにテキスト文字列を分類します。各ラベルへのテキストの分類は、自然言語処理 (NLP) モデルでトピック (製品の説明、映画のレビューなど)、エンティティ (名前、場所、日付など)、感情などを特定する際によく使用されます。 

Text classification

セマンティックセグメンテーション

セマンティックセグメンテーションでは、対象となる画像のうち、お客様のモデルが学習する必要のある特定の部分にラベルを付けることができます。これにより、画像への高度なラベル付けが可能になります。セマンティックセグメンテーションを使用するためは、余分な時間やスキルが必要です。しかし、セマンティックセグメンテーションでは対象に関連するピクセルのみにラベルが付けられるため、純度が非常に高いトレーニングデータを入手できます。例えば、セマンティックセグメンテーションでは、画像内の車が変則的な形状であっても的確にキャプチャできます。一方、境界ボックスは直線の 4 辺のみで構成されているため、車に関係のない背景要素まで選択されてしまいます。

Semantic Segmentation

Amazon SageMaker へのシームレスな統合

SageMaker Ground Truth で作成したトレーニングデータセットは、Amazon SageMaker に簡単にインポートしてモデルの開発やトレーニングに使用できます。 

Amazon SageMaker には、トレーニングデータに簡単にラベルを付け、アプリケーションに最適なアルゴリズムとフレームワークを選択して最適化するために必要なツールが揃っているため、機械学習モデルの構築とトレーニングの準備が容易になります。Amazon SageMaker ではホスト型の Jupyter ノートブックを利用でき、Amazon S3 に保存されているトレーニングデータを簡単に分析して可視化できます。S3 のデータに直接接続するか、AWS Glue を使用して Amazon RDS、Amazon DynamoDB、Amazon Redshift からデータを S3 に移動して、それらのデータをノートブックで分析できます。

Amazon SageMaker では、アルゴリズムの選択に役立つよう、最も一般的な機械学習アルゴリズムが事前にインストールされ最適化されており、他の機械学習サービスと比べて最大 10 倍のパフォーマンスでこれらのアルゴリズムを実行できます。また、Amazon SageMaker は、TensorFlow、Apache MXNet、PyTorch、Chainer を Docker コンテナで実行するよう事前構成されています。これらのオープンソースコンテナをローカル環境にダウンロードし、Amazon SageMaker をトレーニングで使用する前や本番環境でモデルをホストする前に、Amazon SageMaker Python SDK を使用してローカルモードでスクリプトをテストできます。お客様が作成したフレームワークを使用することもできます。

Amazon SageMaker コンソールでは、ワンクリックでモデルのトレーニングを開始できます。Amazon SageMaker は、基盤となるすべてのインフラストラクチャを自動的に管理するほか、ペタバイト規模のモデルのトレーニング用に簡単にスケーリングできます。Amazon SageMaker ではモデルが自動的に調整され、精度が最大限に向上させられるため、トレーニングプロセスが容易になり、必要な期間も短くなります。

モデルのトレーニングと調整が完了したら、Amazon SageMaker で本番用環境に簡単にデプロイして、リアルタイムデータやバッチデータに対する予測 (推論と呼ばれるプロセス) の生成を開始できます。モデルは、Amazon SageMaker ML インスタンスの Auto Scaling クラスターで複数のアベイラビリティーゾーンに分散してデプロイされ、高いパフォーマンスと可用性が発揮されます。また、Amazon SageMaker には A/B テスト機能も組み込まれているため、お客様はモデルをさまざまなバージョンでテストし、最善の結果を入手できます。

Amazon SageMaker により、機械学習の難しくて手間のかかる作業が不要になり、機械学習モデルを短期間で簡単に構築、トレーニング、デプロイできます。

Product-Page_Standard-Icons_01_Product-Features_SqInk
Amazon SageMaker Ground Truth の料金の詳細を確認する

Amazon SageMaker Ground Truth の使用を開始するために、前払いの義務や長期契約はありません。詳細については、Amazon SageMaker Ground Truth の料金ページを参照してください。

Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

AWS マネジメントコンソールから Amazon SageMaker Ground Truth を使った構築を開始しましょう。

サインイン