Amazon Web Services ブログ

Amazon SageMaker Ground Truth が、ラベル付けワークフローを簡素化し続ける

AWS re:Invent 2018 で発表された Amazon SageMaker Ground Truth は Amazon SageMaker の機能であり、機械学習システムのトレーニングに必要なデータセットの効率的で高精度なラベル付けをお客様が簡単に行えるようにします。

Amazon SageMaker Ground Truth の簡単なまとめ

Amazon SageMaker Ground Truth は、機械学習用の高精度なトレーニングデータセットをすばやく構築するお手伝いをします。SageMaker Ground Truth を使用すると、パブリックおよびプライベートでラベル付けを行う人間の作業者への簡単なアクセスと、一般的なラベル付けタスクのための組み込みのワークフローとインターフェースが提供されます。さらに、SageMaker Ground Truth は自動データラベル付けを使用してラベル付けのコストを最大 70% 削減します。自動データラベル付けは、人間がラベルを付けたデータから Ground Truth をトレーニングし、サービスが独自にデータにラベルを付けることを学習することによって機能します。

Amazon SageMaker Ground Truth は以下のデータセットの構築をお手伝いします。

  • テキスト分類。
  • 画像分類 (画像を特定のクラスに分類する)。
  • 物体検出 (画像内の物体の位置をバウンディングボックスとともに取得)。
  • セマンティックセグメンテーション (ピクセル精度で画像内の物体の位置を取得)。
  • 文字通りお客様が何でも注釈を付けることができるカスタムのユーザー定義タスク。

ラベラーのチームを使用して、ラベル付けの要求を直接ラベラーにルーティングすることを選択できます。あるいは、スケールアップが必要な場合は、組織外のラベラーと連携するためのオプションが Amazon SageMaker Ground Truth コンソールに直接表示されます。Amazon Mechanical Turk との統合により、50 万人以上のラベラーのパブリックワークフォースにアクセスできます。あるいは、データに機密性や特別なスキルが必要な場合は、Amazon が事前に審査して AWS Marketplace に掲載している専門のラベリング会社を利用することもできます。

新機能の発表

サービスが開始されてから、私たちは T-Mobile、Pinterest、Change Healthcare、GumGum、Automagi などの企業からたくさんのお客様からのフィードバックを集めました (これからも続けます)。私たちはこれを活用して、サービスの次のイテレーションをどのようにするか定義し、ほんの数週間前に、2 つの非常に要求が高い機能を開始しました。

  • 複数カテゴリのバウンディングボックスでは、画像内の複数のカテゴリに同時にラベルを付けることができます。
  • カスタムワークフロー用の 3 つの新しい UI テンプレート。合計 15 種類のテンプレートを使用して、画像、テキスト、音声データセット用の注釈ワークフローをすばやく構築することができます。

本日、費用対効果の高いラベル付けワークフローの構築と運用のプロセスを簡素化し続ける新しい一連の新機能を発表いたします。それでは、それぞれを見てみましょう。

ジョブのチェーン

前のラベル付けジョブの出力を使用して後続のラベル付けジョブを実行したくなることがよくあります。基本的に、こうした場合、出力されたラベル付きデータセット (および自動データラベリングが有効になっている場合は出力された ML モデル) を使用してラベル付けジョブをチェーンさせたくなります。たとえば、人間が画像内に存在するかどうかを確認する最初のジョブを実行し、その後、人間の周囲にバウンディングボックスを描画する後続のジョブを実行したいとします。

アクティブな学習が使用された場合、お客様はまた、後続のジョブで自動データラベル付けをブートストラップするために作成された ML モデルを使用したいと考えるかもしれません。設定は簡単です。わずかワンクリックでラベル付けジョブをチェーンさせることができます。

ジョブの追跡

お客様は、ラベル付け作業の進捗状況を確認できるようにしたいと考えています。そこで、ラベル付けジョブのほぼリアルタイムのステータスを提供します。

長期間続くジョブ

多くのお客様はラベラーとして専門家を使用しており、こうした個人は定期的にラベル付けを行っています。たとえば、ヘルスケア企業は、臨床医を頻繁に専門家のラベラーとして使用しており、ダウンタイムの間にラベル付けしか実行できない場合があります。このようなシナリオでは、ラベル付けジョブを長時間、時には数週間から数ヶ月間実行する必要があります。現在、ラベル付けジョブの各バッチを 10 日間実行できる拡張タスクタイムアウトウィンドウがサポートされるようになりました。つまり、ラベル付けジョブを数ヶ月間延長することができます。

動的カスタムワークフロー

カスタムワークフローを設定する場合、お客様はソースデータに加えて追加のコンテキストを挿入または使用したいと考えています。たとえば、お客様はラベラーに送信するタスクの各画像の上に特定の気象条件を表示することができます。この情報は、ラベラーが手元のタスクをよりうまく実行するのに役立ちます。具体的には、この機能により、お客様は以前のラベル付けジョブまたは他のカスタムコンテンツからの出力をカスタムワークフローに投入することができます。この情報は、ソースデータと追加のコンテキストを含む拡張マニフェストファイルを使用して、前処理の Lambda 関数に渡されます。また、お客様は追加のコンテキストを使用してワークフローを動的に調整することもできます。

新しいサービスプロバイダーおよび新しい言語

AWS Marketplace に、ViveticSmartOne の 2 社の新しいデータラベル付けサービスプロバイダーをリストアップしています。これら 2 社のベンダーの追加により、Amazon SageMaker Ground Truth はフランス語、ドイツ語、スペイン語のデータラベル付けのサポートを追加します。

利用可能リージョンの拡大

米国東部 (バージニア州)、米国中部 (オハイオ州)、米国西部 (オレゴン州)、欧州 (アイルランド)、アジアパシフィック (東京) に加えて、Amazon SageMaker Ground Truth はアジアパシフィック (シドニー) でも利用可能になりました。

顧客導入事例: ZipRecruiter

ZipRecruiter は、人々が素晴らしい仕事を見つける手助けをし、雇用主がすばらしい会社を築く手助けをします。同社は、開始以来、Amazon SageMaker を使用してきました。ZipRecruiter の CTO である Craig Ogg 氏は次のように述べています。「ZipRecruiter の AI を利用したアルゴリズムは、それぞれの雇用主が探している人材を学習し、パーソナライズされ、きめ細かく関連性が高い候補者のセットを提供します。市場の反対側では、同社の技術が求職者と最も適切な仕事を一致させています。そしてこれらすべてを効率的に行うためには、アップロードされた履歴書から関連データを自動的に抽出する機械学習モデルが必要でした。」

もちろん、データセットを構築することは機械学習プロセスの重要な部分であり、しばしば高価で非常に時間がかかります。両方の問題を解決するために、ZipRecruiter は Ground Truth と当社のラベル付けパートナーの 1 社である iMerit に目を向けました。

Craig Ogg 氏は付け加えます。「Amazon SageMaker Ground Truth は、トレーニング用のデータセットを作成するために必要な時間と労力を大幅に削減するのに役立ちます。データの機密性が高いため、当初は自社のチームの 1 つを使用することを検討しましたが、通常のタスクから時間を奪い、必要なデータを収集するのに数カ月かかることがありました。Amazon SageMaker Ground Truth を使用して、カスタム注釈プロジェクトを支援するために、Amazon によって事前に審査されているプロフェッショナルなラベル付け会社である iMerit を利用しました。この会社の助けを受けて、私たちは自社のチームを使っていた時に比べてほんのわずかな時間で、何千もの注釈を集めることができました。」

開始方法

この記事が参考になったこと、そして新しい機能によってさらに早く構築できるようになることを願っています。Amazon SageMaker Ground Truth をぜひお試しください。そして、ご意見をお聞かせください。このクールなサービスの次のイテレーションの構築を手伝ってください。

Julien