Amazon SageMaker Ground Truth Plus

全般

Q: Amazon SageMaker Ground Truth Plus とは何ですか?

Amazon SageMaker Ground Truth Plus のご紹介: ラベリングアプリケーションを構築したり、ラベル付けのための労働力を自ら管理したりすることなく、質の高いトレーニングデータセットを簡単に作成することができます。SageMaker Ground Truth Plus は、お客様がラベリング要件とともにデータを提供すると、お客様の要件に応じて、データラベリングワークフローの設定や管理を代行します。そこから、さまざまな機械学習 (ML) タスクのトレーニングを受けたエキスパートの労働力がデータラベリングを実行します。Ground Truth Plus は、アクティブラーニング、事前のラベル付け、機械検証などの機械学習の手法を使用します。これにより、出力データセットの質が向上し、データラベリングにかかるコストが削減されます。Ground Truth Plus は、データラベリングオペレーションと品質管理に透明性をもたらします。このサービスを利用すると、複数のプロジェクトでトレーニングデータセットの進行状況を確認し、日々のスループットなどのプロジェクトメトリクスを追跡し、ラベルの質を検査し、ラベル付けされたデータに関するフィードバックを提供できます。Ground Truth Plus は、コンピュータビジョン、自然言語処理、音声認識など、さまざまなユースケースに使用できます。

Q: Amazon SageMaker Ground Truth Plus を使用する利点は何ですか?

機械学習 (ML) モデルをトレーニングするには、データサイエンティストは、大規模で質の高いラベル付きデータセットを必要とします。機械学習の導入が増加するにつれて、ラベル付けのニーズも高まっています。この事実を背景として、データサイエンティストは、データラベリングワークフローの構築とデータラベリングのための労働力の管理に数週間を費やすことを余儀なくされています。残念ながら、これはイノベーションを遅らせ、コストを増加させます。データサイエンティストが機械学習モデルの構築、トレーニング、およびデプロイに時間を費やせるようにするために、データサイエンティストは通常、データオペレーションマネージャーとプログラムマネージャーで構成される他の社内チームに質の高いトレーニングデータセットを作成するよう依頼します。しかしながら、これらのチームは通常、質の高いトレーニングデータセットを提供するために必要なスキルを活用する術を持っていません。このことは、機械学習の結果に影響を及ぼします。

Amazon SageMaker Ground Truth Plus を使用すると、データサイエンティストだけでなく、データオペレーションマネージャーやプログラムマネージャーなどのビジネスマネージャーも、データラベリングアプリケーションの構築とラベル付けのための労働力の管理に関連する付加価値を生まない手間のかかる作業を排除して、質の高いトレーニングデータセットを簡単に作成できます。ラベル付けの要件とともにデータを共有するだけで、Ground Truth Plus は、これらの要件に基づいてデータラベリングワークフローを設定および管理します。そこから、さまざまな機械学習タスクのトレーニングを受けたエキスパートの労働力がデータラベリングを実行します。Ground Truth Plus を使用するに際しては、機械学習に関する深い専門知識やワークフローの設計および品質管理に関する知識さえも不要です。

Q: Amazon SageMaker Ground Truth Plus の使用を開始するにはどのようにすればよいですか?

Amazon SageMaker Ground Truth Plus の利用を開始するには、プロジェクト要件フォームに入力してください。お客様のデータラベリングプロジェクトについてご説明するために、私たちのチームがご連絡いたします。

Q: Amazon SageMaker Ground Truth Plus は、トレーニングデータセットの管理にどのように役立ちますか?

Amazon SageMaker Ground Truth Plus は、データラベリングオペレーションと品質管理の透明性を高めます。例えば、SageMaker Ground Truth Plus にはプロジェクトビューが用意されており、これを使って異なるプロジェクト間でのトレーニングデータセットの進捗状況をモニタリングすることができます。また、リアルタイムのメトリクスダッシュボードでは、日々のスループットなど、プロジェクトの詳細なメトリクスを追跡することができます。また、SageMaker Ground Truth Plus には、ラベルの品質を検査し、リアルタイムにフィードバックを行うことができるユーザーインターフェイスを提供します。最後に、ストリーミングモードでは、特定の種類のワークロードに対して同じ日、同じ時間にラベルターンアラウンドが可能です。

Q: Amazon SageMaker Ground Truth Plus は、どのようにしてトレーニングデータセットの精度を向上させますか?

Ground Truth Plus は、トレーニングデータセットの精度を高めるために、複数の技術を使用しています。

  • 機械学習テクニック: Ground Truth Plus は、アクティブラーニング、事前のラベル付け、機械検証などの機械学習テクニックを使用し、出力データセットの品質を高め、データラベリングのコストを削減します。マルチステップのラベリングワークフローには、Ground Truth Plus がラベル付けするアイテムを選択することでコストを削減できるアクティブラーニングのための ML モデルと、選択したデータにあらかじめラベル付けすることで人間の労力を削減できる ML モデルが含まれています。Ground Truth Plus は、機械検証で潜在的なエラーを特定し、それを人間によるレビューの追加ラウンドに送ります。これにより、人為的エラーを検出し、ラベル付けの品質を大幅に向上させます。
  • 直感的なラベリングインターフェイス: Ground Truth Plus は、以下のようなラベリング補助機能を使用しています。 (1) スナップ: 不完全な 3 次元直方体を、包含するオブジェクトをしっかり覆うようにスナップする。(2) オートセグメンテーション: 4 つの極点をクリックし、オブジェクトマスクを完成させる。

SageMaker Ground Truth と SageMaker Ground Truth Plus の違いを教えてください。

• SageMaker Ground Truth Plus は完全マネージド型のターンキーサービスで、AWS エキスパートがお客様のワークフローおよび外部のデータラベル作業者を設定、管理します。品質、ラベル配送のタイムライン、およびカスタム価格に関する SLA が保証されています。SageMaker Ground Truth はセルフサービス型のオプションで、独自のワークフローを設定したり、あらかじめ用意されたラベル付け UI を選択したり、独自に開発したり、社内の従業員を管理したりできます。また、Mechanical Turk や AWS Marketplace のベンダーから人材を調達することもできます。SageMaker Ground Truth での価格設定は、公開されている価格表に基づいています。

データプライバシー

Q: Amazon SageMaker Ground Truth Plus は、どのようにデータの保護とセキュリティに役立ちますか?

デフォルトで、Amazon SageMaker Ground Truth Plus は、Amazon S3 バケットに保存されたデータを、静止時と転送時に暗号化します。さらに、データへのアクセスは AWS Identity and Access Management (IAM) を使用してコントロールします。お客様のデータは、独立した AWS アカウントに保存され、Amazon S3 バケットはお客様のプロジェクト用に作成されます。Amazon SageMaker Ground Truth Plus は、お客様のために作成された AWS 環境の外でお客様のデータを保存したりコピーを作成したりしません。AWS は、Amazon S3 アクセスロギングおよび AWS CloudTrail を使用して、お客様のデータへのすべてのアクセスをログ記録および監査します。

Q. Amazon SageMaker Ground Truth Plus で処理および保存されたコンテンツには誰がアクセスできますか?

権限を与えられた AWS 従業員およびお客様のデータにラベル付けしたエキスパートワークフォースは、Amazon SageMaker Ground Truth Plus で処理されたお客様のコンテンツにアクセスできます。データにラベル付けするエキスパートワークフォースは、セキュアな SageMaker Ground Truth ワーカーポータルを介してデータの表示とラベル付けを行います。ワーカーポータルからのアクセスでは、ワーカーはデータの表示とラベル付けのみが可能で、データの修正や削除はできません。お客様の信頼、プライバシー、データセキュリティが最優先です。AWS では、転送時および保管時における暗号化など、お客様のコンテンツへの不正なアクセスや開示を防ぐために設計された適切な技術的制御と物理的制御を実装しています。

Q: Amazon SageMaker Ground Truth Plus で処理されたデータ (画像、テキストファイル、動画など) の入力内容は保存され、AWS でどのように使用されますか?

Amazon SageMaker Ground Truth Plus は、生のコンテンツと処理済みのコンテンツをお客様のプロジェクト期間中のみ保存し、要求に応じてお客様のデータラベリングプロジェクトに関連するコンテンツを削除します。 Amazon SageMaker Ground Truth Plus は、サービスの提供と維持のためだけにお客様のコンテンツを使用します。 Amazon SageMaker Ground Truth Plus は、お客様のコンテンツや、そのコンテンツでトレーニングしたモデルを、他のお客様の利益のために使用することはありません。

Q: Amazon SageMaker Ground Truth Plus で処理されたコンテンツは、Amazon SageMaker Ground Truth Plus を使用している AWS リージョンの外に移動されますか?

Amazon SageMaker Ground Truth Plus で処理されたコンテンツは、お客様が Amazon SageMaker Ground Truth Plus を使用している AWS リージョン内で転送時に暗号化され保存されます。お客様が作業明細書を通じて相互に合意したデータローカリゼーション要件で指定しない限り、ラベリングサービスを実行するためにコンテンツが保存されている AWS リージョンの外からコンテンツにアクセスすることができます。

Q: Amazon SageMaker Ground Truth Plus に保存されているデータ (画像、テキストファイル、動画など) の削除をリクエストできますか?

はい。データラベリングプロジェクトに関連する生データおよび処理済みデータの入力の削除をリクエストするには、AWS サポートにご連絡ください。

Q: Amazon SageMaker Ground Truth Plus で処理および保存されたコンテンツの所有権はまだ私にありますか?

はい。お客様は常に自分のコンテンツの所有権を保持します。AWS では、お客様のコンテンツをお客様の同意なく使用することはありません。

Q: Amazon SageMaker Ground Truth Plus で個人健康情報 (PHI) データを処理できますか?

いいえ。現在、Amazon SageMaker Ground Truth Plus は HIPAA 対象サービスではありません。

労働力

Q:Amazon SageMaker Ground Truth Plus のエキスパートワークフォースとは何ですか?

Ground Truth Plus では、データセキュリティ、プライバシー、コンプライアンスなど、お客様のさまざまなニーズを満たすことができる機械学習タスクのトレーニングを受けた、高度なスキルを持ち、多様で伸縮自在なワークフォースがラベル付けを行います。ワークフォースは 2 つの階層で構成されています。1/Amazon ワークフォース: Amazon が雇用し管理するワーカーで構成されており、お客様に代わってオペレーション、品質、ターンアラウンドタイムの SLA を Amazon が所有しています。2/ベンダーワークフォース: データラベリングサービスを専門に提供する厳選されたサードパーティーベンダーが提供するワーカーで構成され、品質やターンアラウンドタイムの SLA は Amazon が所有します。

Q: Amazon SageMaker Ground Truth Plus プロジェクトで使用するワークフォースの階層は誰が決めるのですか?

プロジェクトに使用するワークフォースのタイプは、お客様が決めることができます。プロジェクトの品質、ターンアラウンドタイム、セキュリティ要件を満たすために、お客様から特定のワークフォースを使用するようにといった指示がない限り、Amazon のワークフォース、ベンダーのワークフォース、または両方のワークフォースを組み合わせて使用することができます。

Q: 新型コロナウイルス (COVID-19) に関連して、ベンダーワークフォースはどのような変更を行っているか、知っておくべきことはありますか?

新型コロナウイルス (COVID-19) を踏まえて、従業員の健康と安全を確保するため、在宅勤務を行っているサービスプロバイダーがあります。

Q: ベンダーのワークフォースはどのようなセキュリティ基準を満たす必要がありますか?

サービスプロバイダーは、独立したサードパーティーの監査人による SOC 2 コンプライアンスまたは ISO 27001 の認証を年 1 回受ける必要があります。

SOC 2 レポートは、米国公認会計士協会 (AICPA) の信頼サービス基準 (セキュリティ、可用性、処理の完全性、機密性、プライバシー) に基づくサービスプロバイダの統制環境を説明するものです。

ISO 27001 認証は、国際標準化機構 (ISO) と国際電気標準会議 (IEC) に基づいており、情報セキュリティマネジメントシステム (ISMS) の構築、実施、維持、および継続的な改善に関する要求事項が詳細に記載されています。

サービスプロバイダーは、SOC 2 または ISO 27001 を独自に取得することに加えて、お客様のデータを安全に保つために、以下に説明する追加のセキュリティ管理を維持することが求められます。

テクノロジー管理:
サービスプロバイダーは、適切なソフトウェアを利用して、システムからファイル/データをダウンロードまたはコピーしようとする試みをブロックし、システムへの不正アクセスを防止する必要があります。サービスプロバイダーはまた、ワークフォースが顧客のタスク関連データを保存またはコピーすることを禁止することも求められています。

ネットワークセキュリティ管理:
サービスプロバイダーのネットワークは、顧客のタスク関連データへのリモートアクセスを防ぐように設計されている必要があります。さらに、ピアツーピアのファイル共有ソフトウェアはプロバイダーのネットワークでブロックされているため、高可用性を提供するようにファイアウォールを設計する必要があります。

従業員管理:
サービスプロバイダーは、従業員と秘密保持契約 (NDA) を締結していることを確認する必要があります。サービスプロバイダーは、情報の漏洩を防ぎ、従業員がいかなる手段 (紙、USB、携帯電話、その他の媒体) で情報を送信することを防ぐために、厳格なポリシーを採用する必要があります。

物理的アクセス管理:
サービスプロバイダーは、本番サイトへの不正アクセスを防ぐために物理的なアクセス管理対策を維持する必要があります。これらには、バイオメトリック認証、従業員バッジ識別などを備えた回転ドアが含まれます。

Q: AWS は、ベンダーワークフォースがこれらのセキュリティ基準を満たす場合に、どのように役に立ちますか?

AWS は、Amazon SageMaker Ground Truth Plus のベンダーワークフォースの一員となる前に、サービスプロバイダーに SOC 2 または ISO 27001 の認定レポートを提出するよう求めています。AWS の SOC レポートと ISO 認証は、ベンダーワークフォースには適用されません。

Amazon SageMaker Ground Truth

全般

Q: Amazon SageMaker Ground Truth とは何ですか?

Amazon SageMaker Ground Truth は、機械学習システムのトレーニングに必要なデータセットの効率的で高精度なラベル付けをお客様が簡単に行えるようにします。SageMaker Ground Truth は、人間の作業者が手作業で付けたラベルに基づいて、データセットの一部に自動的にラベルを付けることができます。手作業が必要であれば、クラウドソーシングの Amazon Mechanical Turk に登録されている 50 万人以上のラベル付け作業者の労働力、自社の従業員、AWS Marketplace に登録されている Amazon 推奨のサードパーティーデータラベリングサービスプロバイダーの中から選択できます。SageMaker Ground Truth は革新的なアルゴリズムとユーザーエクスペリエンス (UX) 技術を使用して、人間によるラベル付けの精度を向上させます。時間が経つにつれて、モデルは人間が作成したラベルから継続的に学習することで改良され、自動ラベル付けが向上します。

Q: データのラベル付けの自動化とは何ですか?

データのラベル付けの自動化とは、機械学習を使用するデータのラベル付けです。Amazon SageMaker Ground Truth では、まずデータのランダムなサンプルが選択され、人がラベルを付けることができるよう送信されます。人によるラベル付けの結果は、ラベル付けモデルのトレーニングの際に、未加工データの新しいサンプルに自動的にラベルを付けるために使用されます。モデルによるデータへのラベル付けの品質が設定したしきい値以上になる場合、そのラベルが確定されます。信頼性スコアがしきい値を下回る場合、データは人に送信され、人がラベルを付けます。人がラベルを付けたデータの一部は、ラベル付けモデルの新しいトレーニングデータセットの生成のために使用され、モデルは精度を向上させるために自動的に再トレーニングされます。未加工データの各サンプルにラベルを付けるために、このプロセスが繰り返されます。繰り返されるたびに、そのラベル付けモデルでは、未加工データに自動的にラベルを付ける性能が向上し、人に転送されるデータが減少します。

Amazon SageMaker Ground Truth の使用

Q: Amazon SageMaker Ground Truth を使用する利点は何ですか?

機械学習モデルを構築、トレーニング、デプロイする前に、まずデータが必要です。成功するモデルは高品質のトレーニングデータを基にして構築されており、トレーニングデータセットの収集とラベル付けには多くの時間と労力が必要です。トレーニングデータセットを構築するには、まず人手によるラベル付けで多数の画像または他のデータタイプを評価し、各データタイプの特定の対象物を識別してラベル付けする必要があります。こうしたラベル付けの作業は、多くの人手に分散され、多大なオーバーヘッドとコストが追加されます。しかも、間違ったラベルがあると、システムは不正な情報から学習することになり、不正確な予測を行います。

Amazon SageMaker Ground Truth は、自動化されたデータのラベル付けと人手によるラベル付けの組み合わせを利用して、Amazon S3 に保存されているデータを使用して、高精度で効率的なデータラベル付けを簡単に実行できるようにすることで、この問題を解決します。

Q: Amazon SageMaker Ground Truth の使用を開始するにはどのようにすればよいですか?

Amazon SageMaker Ground Truth は、数ステップのみでデータのラベル付けジョブ全体を設定できるマネージドサービスです。Amazon SageMaker Ground Truth の使用を開始するには、AWS マネジメントコンソールにサインインして、SageMaker コンソールを開きます。そこで、[Ground Truth] の下にある [Labeling jobs] を選択します。これで、ラベル付けジョブを作成できます。まず、ラベル付けジョブ作成フローの一部として、ラベルを付けるデータセットを含む S3 バケットへのポインタを指定します。Ground Truth には、一般的なラベル付け作業のためのテンプレートが用意されており、いくつかの選択肢をクリックするだけで、データをラベル付けするための最短のステップを提供します。独自のカスタムテンプレートを作成することもできます。ラベル付けジョブを作成する最後のステップとして、人手による作業について 3 つのオプションから選択します。(1) クラウドソーシングの労働力を利用する、(2) 推奨されるサードパーティーデータラベリングサービスプロバイダーを利用する、(3) 自社従業員が作業する。また、データの自動ラベル付けを有効にするオプションもあります。

Q:  トレーニングデータセットは Amazon SageMaker Ground Truth を使用してどのように管理されますか?

Amazon SageMaker Ground Truth は、メタデータ、関連するラベル、ラベルとデータセットのタクソノミーを管理します。SageMaker ノートブックまたは SageMaker コンソール内の Ground Truth コンソールから AWS SDK を使用して、データセットやラベルを簡単に照会して管理することができます。詳細については、Amazon SageMaker Ground Truth のドキュメントを参照してください。

Q:  Amazon SageMaker Ground Truth は、どのようにしてトレーニングデータセットの精度を向上させますか?

Amazon SageMaker Ground Truth には、人間がデータのラベル付けを正確に行うために役立つ以下の機能があります。

(a) 注釈の統合: この機能は、各データオブジェクトを複数の作業者に送信し、その応答 (「注釈」と呼ばれる) を単一のラベルに統合することによって、個々の作業者の間違い/偏見に対処します。その後、注釈を取得し、注釈統合アルゴリズムを使用して注釈を比較します。このアルゴリズムは、まず無視される異常な注釈を検出します。次に、注釈の加重統合を実行し、より信頼できる注釈に高い重みを割り当てます。出力は、それぞれの対象物ごとに 1 つのラベルです。

(b) 注釈インターフェイスのベストプラクティス: これらは、作業者がより正確に作業を実行できるようにする注釈インターフェイスの機能です。人間の作業者は間違ったり、偏見を持ちやすいので、よく設計されたインターフェイスは作業者の正確性を向上させます。ベストプラクティスの 1 つは、固定側パネルに良いラベルと悪いラベルの例とともに短い指示を表示することです。もう 1 つのベストプラクティスは、作業者が画像上に境界ボックスを描いているときに、ボックス境界の外側の領域を暗くすることです。

Q:  Amazon SageMaker Ground Truth では、データが保護され安全であることが保証されますか?

デフォルトで、Amazon SageMaker Ground Truth はデータを保存時および転送中に暗号化します。さらに、データへのアクセスは AWS Identity and Access Management (IAM) を使用してコントロールできます。Ground Truth は、データを AWS 環境外に保存したりコピーしたりすることはないので、データは常にコントロール下にあります。さらに、Ground Truth は一般データ保護規則 (GDPR) などのコンプライアンス基準をサポートしており、Amazon CloudWatch および Amazon CloudTrail を使用して総合的なログ記録および監査機能を提供します。詳細については、Amazon SageMaker Ground Truth のドキュメントを参照してください。

Q: Amazon SageMaker Ground Truth を使用して人間の労働力にアクセスするにはどうすればよいですか?

From SageMaker Ground Truth から、次の 3 つの労働力オプションのいずれかを選択できます。(1) Amazon Mechanical Turk に登録されているクラウドソーシングの労働力、(2) AWS Marketplace から利用できるサードパーティーのデータラベリングサービスプロバイダー、(3) 自社の従業員。詳細については、Amazon SageMaker Ground Truth のドキュメントを参照してください。 

サードパーティーのデータラベリングサービスプロバイダーを利用する

Q:   Amazon SageMaker Ground Truth のデータラベリングサービスプロバイダーは機密データを処理できますか?

はい、Amazon SageMaker Ground Truth のデータラベリングサービスプロバイダーは、機密データを処理できます。AWS のお客様とサードパーティーのデータラベリングサービスプロバイダーとの間の標準サービスアグリーメントには、お客様の機密情報に対する基本的な保護が含まれています。機密情報をサービスプロバイダーと共有する前に、これらの規約を確認してください。これらの規約は、AWS Marketplace サービスプロバイダーのリストページに記載されています。

Q: 私は AWS Marketplace を通してサードパーティーのサービスプロバイダーと作業しています。新型コロナウイルス (COVID-19) に関連して、サービスプロバイダーはどのような変更を行っているか、知っておくべきことはありますか?

新型コロナウイルス (COVID-19) の影響が急速に拡大するなか、従業員の健康と安全を確保するため、一時的に在宅勤務を行っているサービスプロバイダーがあります。このような状況が続いているあいだは、影響を受けているサービスプロバイダーに対し、SOC 2 コンプライアンスや以下の FAQ で述べられている追加的なセキュリティ管理などを含むセキュリティ基準を、適用できないおそれがあります。このことを反映させるため、影響を受けているサービスプロバイダーは AWS Marketplace のリストを更新しています。またお客様から明示的に同意を得ないかぎり、リモート環境から顧客データを処理することはありません。

Q: Amazon SageMaker Ground Truth のデータラベリングサービスプロバイダーは、どのセキュリティ基準を満たす必要がありますか?

データラベリングサービスプロバイダーは、毎年 SOC 2 コンプライアンスと認定を完了する必要があります。SOC 2 レポートは、米国公認会計士協会 (AICPA) の信頼サービス基準 (セキュリティ、可用性、処理の完全性、機密性、プライバシー) に基づくサービスプロバイダの統制環境を説明するものです。

SOC 2 以外にも、サービスプロバイダはこのような追加のセキュリティ統制を維持し、顧客データを安全に保つ必要があります。

テクノロジー管理:
サービスプロバイダーは、適切なソフトウェアを利用して、システムからファイル/データをダウンロードまたはコピーしようとする試みをブロックし、システムへの不正アクセスを防止する必要があります。サービスプロバイダーはまた、従業員が顧客のタスク関連データを保存またはコピーすることを禁止することも求められています。

ネットワークセキュリティ管理:
サービスプロバイダーのネットワークは、顧客のタスク関連データへのリモートアクセスを防ぐように設計されている必要があります。さらに、ピアツーピアのファイル共有ソフトウェアはプロバイダーのネットワークでブロックされているため、高可用性を提供するようにファイアウォールを設計する必要があります。

従業員管理:
サービスプロバイダーは、従業員と秘密保持契約 (NDA) を締結していることを確認する必要があります。サービスプロバイダーは、情報の漏洩を防ぎ、従業員がいかなる手段 (紙、USB、携帯電話、その他の媒体) で情報を送信することを防ぐために、厳格なポリシーを採用する必要があります。

物理的アクセス管理:
サービスプロバイダーは、本番サイトへの不正アクセスを防ぐために物理的なアクセス管理対策を維持する必要があります。これらには、バイオメトリック認証、従業員バッジ識別などを備えた回転ドアが含まれます。

Q: AWS は、サービスプロバイダーがこれらのセキュリティ基準を確実に満たす場合に、どのように役立ちますか?

AWS は、サービスプロバイダーがマーケットプレイスにリストされる前に SOC 2 認定レポートを提供するよう要求し、次のことを確認しています。

信頼性 (サービスプロバイダーの監査人が AICPA によって認定されている場合)

報告期間 (SOC 2 認定の有効日)

本番サイト (サービスプロバイダーの従業員が Amazon SageMaker Ground Truth のラベリングタスクに取り組む物理的なサイト)。

Q: サービスプロバイダーのセキュリティ基準は、どのくらいの頻度でレビューを行っていますか?

すべてのサービスプロバイダーのセキュリティ基準は、必須要件を満たしていることを確認するために毎年見直されます。

Q: AWS のレビューに例外はありますか?

いいえ。サービスプロバイダーがセキュリティ基準を満たしていない場合、AWS Marketplace のカタログから削除されます。削除は 24 時間以内に完了し、アクティブなお客様全員に E メールで通知されます。

Q: サービスプロバイダーが複数の本番サイトを通じてデータラベリングサービスを提供している場合、すべてのサイトがレビュープロセスを通過する必要がありますか?

はい、すべてのサイトにおいて必要なセキュリティ基準を満たす必要があります。

Q: サービスプロバイダーの本番サイトにデータ侵害があるとどうなりますか?

サービスプロバイダーは、実際の不正アクセスまたは疑わしい不正アクセス、収集、取得、使用、送信、開示、破損、または顧客情報の損失が検出されてから 24 時間以内に、AWS および影響を受けるお客様にお知らせします。サービスプロバイダーは各セキュリティのインシデントをすみやかに解決し、AWS とその影響を受けるお客様に、内部調査に関する詳細を書面で提供します。

料金と可用性

Q: Amazon SageMaker Ground Truth にかかる費用はどれくらいですか?

最新の価格情報については、SageMaker Ground Truth の料金ページを参照してください。

Q: Amazon SageMaker Ground Truth を利用できるのは、どの AWS リージョンですか?

Amazon SageMaker Ground Truth が現在利用可能な AWS リージョンの一覧は、製品およびサービス一覧 (リージョン別) でご確認いただけます。

合成データの生成

Q: ラベル付き合成データはどのように生成できますか?

Amazon SageMaker Ground Truth は、お客様に代わってラベル付けされた合成データを生成することができます。お客様は合成画像の要件を指定するか、3D アセットやコンピュータ支援設計 (CAD) 画像などのベースライン画像を提供し、AWS のデジタルアーティストがゼロから画像を作成するか、お客様から提供されたアセットを使用します。生成される画像は、オブジェクトのポーズと配置を模倣し、オブジェクトやシーンのバリエーションを取り入れます。オプションで、傷やへこみ、その他の変化などの特定の要素を含むため、データ収集に時間がかかったり、画像を取得するために部品を損傷する必要がなくなります。SageMaker Ground Truth は、高精度で自動的にラベル付けされた数十万もの合成画像を生成することができます。

Q: なぜラベル付けされた合成データを使う必要があるのですか?

機械学習 (ML) モデルをトレーニングするためのデータを調達するには、かなりの時間と労力がかかります。稀なシナリオや変動が激しいシナリオなど、データの種類によっては、データ収集に費用がかかるか、不可能な場合もあります。例えば、製造上の欠陥を特定するには、大量の画像が必要です。さらに、機械学習モデルは、稀な欠陥のような頻繁に発生しないシナリオを認識するためにトレーニングされる必要があります。稀な欠陥を特定するために、機械学習モデルは欠陥の画像を必要としますが、これらの事象の発生頻度は低く、このデータはしばしば手動で作成され、高価な部品の破損を必要とすることがあります。最後に、画像は手作業でラベル付けする必要があります。

SageMaker Ground Truth を使用すると、自動的にラベル付けされた合成データを生成することができ、トレーニングデータの収集とラベル付けにかかる時間と費用を削減することができます。そして、合成データを使って、物体検出、異常検出、欠陥検出など、幅広いコンピュータビジョンのユースケースで機械学習モデルをトレーニングさせることができます。

Q: SageMaker Ground Truth はどのようにラベル付けされた合成データを生成するのですか?

ラベル付けされた合成データを生成するには、3 つのステップを踏みます。まず、3D アセット、ベースライン画像および/または画像要件を提供します。次に、デジタルアーティストがこれらの入力を 3D アセットに変換し、傷、へこみ、テクスチャなどの要素を追加します。そして、SageMaker Ground Truth が合成画像を生成し、自動的にラベル付けを行います。

Q: 画像や 3D アセットがない場合でも、SageMaker Ground Truth を使ってラベル付けされた合成データを生成することができますか?

はい、100 万以上のオブジェクトからなる 3D アセットライブラリがありますので、それを使って合成データの作成を代行してサポートすることが可能です。また、あらかじめラベル付けされた少数の画像を使用して、新しい合成データセットを作成することも可能です。必要なデータの背景画像やサンプルがあれば、精度の高い合成データを迅速に作成することができます。

生成系 AI

Q: Amazon SageMaker Ground Truth Plus を使用して生成系 AI アプリケーションを構築するにはどうすればよいですか?

SageMaker Ground Truth Plus を使用すると、高品質のデータセットを生成して、基礎モデルを人間の好みに合わせてカスタマイズおよび調整できます。Amazon SageMaker Ground Truth が生成するラベル付きデータセットには、デモンストレーションデータとプリファレンスデータの 2 種類があります。

デモンストレーションデータでは、データアノテーターは、モデルが人間とどのように相互作用するかをシミュレートして実証するタスク (質問と回答の作成、テキストの要約など) を完了します。次に、ラベル付けされたデータセットを使用して、スーパーバイズドファインチューニング (SFT) と呼ばれるプロセスでモデルを微調整します。

プリファレンスデータでは、モデルが生成したコンテンツやシミュレートされたモデルデータについて、人間のアノテーターが直接フィードバックやガイダンスを行います。たとえば、大規模言語モデルからのテキスト応答を、正確さ、関連性、文章の明瞭さなどの特定の要素に基づいてランク付けします。プリファレンスデータを使用する微調整方法の 1 つに、ヒューマンフィードバックからの強化学習 (RLHF) があります。

Q: Amazon SageMaker Ground Truth Plus はどのような生成系 AI のユースケースをサポートできますか?

Amazon SageMaker Ground Truth Plus では、大規模言語モデル (LLM)、テキストから画像へのモデル、およびテキストから動画へのモデル用のデータセットを生成できます。大規模言語モデルの場合、データアノテーターは、質問と回答の組み合わせ、テキストの要約、レッドチーミング用のテキストの再作成、スタイルや音声の変更など、管理下での微調整用のデモンストレーションデータセットを作成できます。また、アノテーターは LLM の回答をランク付けして、チャットボットが人間の好みと一致していることを確認することで、RLHF のプリファレンスデータセットを作成することもできます。テキストから画像へのモデルやテキストから動画へのモデルの場合、データアノテーターは豊富なキャプションデータセットを作成できます。次に、これらのデータセットを使用して、ユーザーの元のテキスト入力により近い画像や動画を生成する方法についてモデルをトレーニングします。データアノテーターは、特定の美的属性など、ユーザーが指定した観点に沿ってランク付けされた画像や動画を含むプリファレンスデータセットを生成することもできます。未対応の新しいタスクタイプをリクエストすることも可能であり、お客様のニーズに合ったワークフローを作成します。

Q: 基礎モデルにとってヒューマンフィードバックが重要なのはなぜですか?

生成系 AI アプリケーションでは、一般的に人間がコンテンツの要求者であると同時に消費者でもあります。したがって、人間が基礎モデルにユーザーのプロンプトに従って正しく応答する方法を教えることが重要です。データアノテーターは、ラベル付けされたデータを使用してモデルを微調整およびカスタマイズすることで、モデルがユーザーとどのように相互作用すべきかのスタイル、長さ、精度をシミュレートできます。たとえば、チャットボットを作成する場合、データアノテーターは、人間が書いた質問と回答をモデルに学習させることで、質問への対応や回答の提供の仕方を教えます。また、データアノテーターは、チャットボットのさまざまな応答を人間の好みに合わせてランク付けし、人間の意図や価値観に応じた書き方をモデルに学習させます。これは、ヒューマンフィードバックからの強化学習 (RLHF) を通じて行うことができます。
 

Amazon SageMaker Ground Truth の料金
Amazon SageMaker Data Labeling の料金の詳細を確認する

Amazon SageMaker Data Labeling の使用を開始するために、前払いの義務や長期契約はありません。

詳細 
AWS アカウントにサインアップする
無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する
コンソールで構築を開始する

AWS マネジメントコンソールから Amazon SageMaker Data Labeling を使った構築を開始しましょう。

サインイン