Amazon Web Services ブログ

Category: Artificial Intelligence

集合知と Amazon SageMaker Ground Truth を併用したアノテーション精度の向上

Amazon SageMaker Ground Truthは、Machine Learning (ML) 用の高精度なトレーニングデータセットをすばやく構築するお手伝いをします。ご自身のワークフォース、データラベリングに特化したベンダー管理ワークフォースの選択、または Amazon Mechanical Turk が提供するパブリックワークフォースを使用して、データにラベルを生成することができます。 パブリックワークフォースは大規模で経済的ですが、多様なワーカーと同様で、ミスも生まれやすくなります。このような低品質のアノテーションから高品質のラベルを作成する 1 つの方法は、同じ項目の異なるワーカーからの応答を 1 つのラベルに体系的に結合することです。Amazon SageMaker Ground Truth には、この集計を実行する組み込みのアノテーション統合アルゴリズムが含まれているため、ラベリング作業の結果として精度の高いラベルを取得できます。 このブログ記事では、分類を行う場合 (例: “owl”、“falcon”、“parrot” などの画像にラベル付けする) に焦点を当て、単一の回答と多数決の 2 つの競合するベースラインアプローチに対するメリットを示します。 背景 ラベル付きデータセットを生成する最も簡単な方法は、各画像をシングルワーカーに送信することです。ただし、各画像がシングルワーカーによってのみラベル付けされているデータセットでは、品質が低下する可能性が高くなります。スキルの低さや無関心などの要因によって、低品質のラベルを提供するワーカーからエラーが入り込むことがあります。回答を複数のワーカーから引き出し、一定の原則に沿って集計すれば、品質を向上させることができます。複数のアノテーターの回答を簡単に集計するには、多数決 (MV) を使用します。多数決では、最も多くの票を獲得したラベルを単純に出力し、任意の結びつきをランダムに解消します。そのため、3 人のワーカーがそれぞれ、“owl”、“owl”、“falcon” と画像にラベル付けした場合、MV は最終ラベルとして、“owl” を出力します。また、3 人のワーカーのうち 2 人から “owl” という回答が得られたため、この出力に 0.67(= 2/3)の信頼度を割り当てることもできます。 単純で直感的なことですが、原則として MV は ワーカーのスキルが異なると、多くのマークを見逃します。たとえば、最初の 2 人のワーカー (両方とも “owl” というラベルを指定している) は 60% の確率で正しい傾向があり、最後のワーカー (“falcon” […]

Read More

【開催報告】第4回 Amazon SageMaker 事例祭り

アマゾン ウェブ サービス ジャパン株式会社 (AWS) アソシエイトソリューションアーキテクトの小田桐昂史です。 AWS 目黒オフィスでは、お客様の事例紹介登壇を交えた Amazon SageMaker のセミナーとして、「Amazon SageMaker 事例祭り」を毎月開催しています。2019年4月17日に開催された第4回 Amzon SageMaker 事例祭りでは、GMOクラウド株式会社の山下様、株式会社オークネット・アイビーエスの黒柳様、株式会社ミクシィの岩瀬様をゲストスピーカーにお迎えし、Amazon SageMakerの基礎から、具体的な導入・運用事例まで、100名を超える大勢の方にお越しいただき、会場は満員でした。

Read More

3 つの AWS DeepRacer League – 3 つの国、3 つのレース、3 人の新チャンピオン!

AWS DeepRacer League は、世界初の自走型レースリーグです。あらゆるスキルレベルの開発者が機械学習を実地で体験して楽しめる機会を提供しています。 この AWS DeepRacer League が、2019 年 4 月 17 日に初めて、3 つのレースのライブイベントを 3 つの国々で同日に開催し、レースは真にグローバルなものとなりました。このイベントでは、新たに 3 人の AWS DeepRacer League チャンピオンが栄冠に輝きました。3 人は全員、re:Invent 2019 に無料招待され、AWS DeepRacer Championship Cup の最終レースに挑みます。 太陽を追ってチャンピオンに栄冠を授与 レースは韓国のソウルから始まりました。ソウルでは、現チャンピオンであるシンガポールの Juv Chan が出した世界記録を破ろうと開発者たちがレースに臨みました。 ソウルのイベントは、Summit サーキットのカレンダーでは 2 番目となる 2 日間のイベントです。初日の予選の終了時点で目標は高く設定されました。レーサーたちは、首位の奪取を目指して 2 日目のレースに臨みました。初日が終了した時点では、「Steve’s」の自走型車両のタイムが 10 秒を切っていました。その時点で、世界記録との差は約 10 分の 8 秒です。 ソウルで初日のレースが終わりかけたころ、今度は、UAE のドバイで開発者たちがレースを開始しました。大勢の観衆が詰めかけ、開発者がトラック上で自分のスキルを試す様子を見守りました。レースは接戦となりましたが、”Mats @ virgin mobile” が […]

Read More

Amazon Polly によるアラビア語サポートの追加

 2019 年 4 月 17 日、 Amazon Polly は Zeina と呼ばれるアラビア語の女性テキスト読み上げ (TTS) 音声の提供を開始しました。この声は明瞭かつ自然に聞こえ、他のすべての Amazon Polly 製品と同様に、早口言葉を習得し、ささやくことができます。Zeina の自己紹介を聞いてみましょう。 今すぐ再生する Amazon Pollyによる音声 こんにちは。私の名前は Zeina です。私はアラビア語の Amazon Polly 音声です。よろしくお願いします。 مَرْحَباً، اِسْمِي زينة، أَنا اَلْصَوْتُ اَلْعَرَبِيُّ فِي أمازون بولي، سَعِدْتُ بِلِقائِكُم. こちらは Zeina の能力を実証する早口言葉です。 今すぐ再生する Amazon Pollyによる音声 王子たる王子が砂漠で井戸を掘るように命じられましたが、この文にはいくつの R があるでしょう? أَمَرَ أَمِيرُ اَلْأُمَراءِ، بِحَفْرِ بِئْرٍ فِي اَلْصَحْراءِ. فَكَمْ […]

Read More

Amazon Comprehend と Amazon SageMaker ノートブックを使ったコンテンツの分析

今日の「つながった」世界では、企業にとってソーシャルメディアチャネルを監視し、それぞれのブランドと顧客関係を保護することが重要です。企業はソーシャルメディア、E メール、およびその他のコミュニケーションを通じてその顧客、製品、およびサービスについて理解しようとしています。機械学習 (ML) モデルは、これらのニーズに対応するために役立ちますが、独自のモデルを構築して訓練するプロセスは、複雑で時間がかかるものになり得ます。Amazon Machine Learning プラットフォームは、Jupyter ノートブックを使用して Amazon SageMaker 内でアクセスできる事前に訓練されたモデルを提供します。Amazon SageMaker は、モジュラー設計の完全マネージド型エンドツーエンド ML プラットフォームですが、この例ではホストされているノートブックインスタンスのみを使用します。Amazon Comprehend は、テキスト内のインサイトと関係性を見つけるために機械学習を使用する自然言語処理 (NLP) サービスです。 このブログ記事では、ノートブック内で Twitter センチメントを分析するために Amazon Comprehend を使用する方法を説明します。 Amazon Comprehend の仕組み Amazon Comprehend は、ソーシャルメディアの記事、E メール、ウェブページ、ドキュメント、およびトランスクリプションなどの非構造型データを入力として使用します。次に、NLP アルゴリズムの力を使ってその入力を分析し、キーフレーズ、エンティティ、およびセンチメントを自動的に抽出します。また、入力データの言語を検知したり、トピックモデリングアルゴリズムを使用してデータの関連グループを見つけたりすることもできます。以下の図は、Amazon Comprehend のワークフローを説明したものです。 Amazon Comprehend Custom を使用すると、あらかじめ設定された汎用エンティティタイプとしてサポートされていない新しいエンティティタイプを識別する、またはビジネス固有の用語とフレーズについて顧客フィードバックを分析することができます。例えば、顧客がいつチャーン (解約) するか、またはいつ固有の製品 ID の 1 つに言及するかを学ぶことが可能です。 ステップ 1: Amazon SageMaker ノートブックをセットアップする AWS マネジメントコンソールで [すべてのサービス] を選択してから、機械学習にある [Amazon […]

Read More

Amazon SageMaker Ground Truth を使って大量ラベル付けの品質保証を簡単に行う

このブログの記事では、大量のデータにラベル付けする機械学習システムを構築したばかりで、ラベルの一部に対して手動の品質保証(QA)を行おうとしている皆さんにご覧いただきたいと思います。限られた人員を大量の作業で困らせることなく、これを実現するためにはどうすれば良いでしょうか。本記事では、Amazon SageMaker Ground Truth のカスタムラベリングジョブを使用した実現方法を示します。 一度に1項目ずつワーカーに検証を依頼すると多くの作業が発生してしまいます。そこで、同じラベルが付与された項目をまとめて提示するカスタムラベル付け方法を実現し、各ワーカーには正しくないものをマークするように依頼します。 こうすると、ワーカーは、すべて最初からラベル付けするよりもはるかに多くのデータ量を迅速に評価できます。 品質保証が必要なユースケースの作業には、次のようなものがあります。 判断が難しいユースケースにおいて、実際に使用する前に対象分野の専門家によるレビューと承認を必要とする ラベルを確認して、ラベルを作成したモデルの品質をテストする ラベルに誤りがある項目を特定してカウントし、修正し、学習データセットに戻す モデルによって割り当てられたラベルの正確性と確信度の分析する 単一のしきい値をすべての分類クラスに適用できるか、あるいはクラスごとに異なるしきい値を使用するかどうかを確認する 初期データのラベル付けにより単純なモデルを使用し、次に品質保証のプロセスにより結果を検証し、再学習させることでモデルを改善する このブログ記事では、これらのユースケースに対応する例について説明します。 背景とソリューションの概要 Amazon SageMaker Ground Truth は、パブリックおよびプライベートのラベル付けワーカーに簡単にアクセスする機能や、一般的なラベリングタスクのための組み込みのワークフローとインターフェイスを提供します。 このブログ記事では、Ground Truth のカスタムラベリングワークフローを活用することで、システムやビジネスプロセス全体で時間のかかるもう一つの部分である、機械学習または人により付与されたラベルの品質保証を行う方法を説明します。 このサンプルケースでは、入力は個々のワーカーによって検証されるラベル付き画像のリストです。 ワーカーは一つの画面上に同じラベルのついた画像をまとめて表示し、一度にラベルのセットを検証できます。 こうすることで、セット全体を素早く確認し、正しくラベル付けされていないものをマークし、「適合しない」ものを選び出すことができます。 検証された結果は、Amazon DynamoDB テーブルに保存されます。 まとめて確認するバッチの項目数は、作業の複雑さと、容易に比較・確認するため一度に表示できる数に応じて、タスクに対し適切に選択する必要があります。 この例では、バッチサイズは 25 (テンプレートで設定可能)を選択し、確認作業の負荷とレビュー対象の画像の量のバランスをとっています。 Amazon SageMaker Ground Truthカスタムラベリングジョブの構造 Amazon SageMaker Ground Truthカスタムラベリングワークフローは、以下の要素から構成されています。 ラベリングタスクを実行するワーカー。パブリックワークフォース(Amazon Mechanical Turk を使用する場合など)またはプライベートワークフォースから選択できます。 JSON マニフェストファイル。 マニフェストは、ジョブの入力場所を Ground Truth に伝えます。 各行項目は単一のオブジェクトであり、単一のタスクに対応します。 この例では、各オブジェクトは、品質保証の作業において、一度にワーカーに提示される同じラベルを持った一群の画像を指すカスタムラベリング入力です。 ラベリング前の AWS […]

Read More

Amazon Translate で分析を多言語コンテンツに拡張する Protagonist

 Protagonist の COO (最高執行責任者) である Bryan Pelley 氏のゲスト投稿です。Protagonist 流に言うと「公共の場でデータに基づいた議論を行えば、企業はもっと効率よくコミュニケーションを図ることができます。」 Protagonist はナラティブの理解において先駆け的企業です。弊社が定義するナラティブとは視聴者が抱く想念のことをいい、そこでは相互に関連し合うコンセプト、テーマ、イメージ、アイデアが 1 つのストーリーとしてまとめられたものです。ナラティブは意識的にも無意識的にも人間の意思決定に大きく関わるニーズ、欲求、欲望を深く反映するため無視できません。Protagonist では Amazon Translate を使用することで英語以外の言語でナラティブを分析できるようになり、世界を相手に顧客を獲得することが可能となりました。 Protagonist Narrative Analytics プラットフォームでは人が持つ専門知識に基づいた自然言語処理 (NLP) と機械学習 (ML) を使用して、従来のメディア、ソーシャルメディア、その他のオンラインメディア全体でお客様にとって重要なナラティブを明確にし、推定し、追跡を行います。次の図は当社の Narrative Analytics によるソリューションを示しています。 Protagonist はいくつかの例外を除き英語のみのコンテンツしか分析できず、そのせいで長期的成長が制限されていました。多くのお客様だけでなく見込み顧客も、国境を超えたナラティブに関するプロジェクトに大きな関心を示しているにもかかわらずです。 こうしたナラティブを作成するには母国語のコンテンツに取り組む必要があります。 言語に達者なスタッフのおかげで、以前は主にフランス語とスペイン語でのプロジェクトを少し行うことができました。このような場合、チームは翻訳なしでコンテンツの分析を実行することになり、使用できる NLP ツールの範囲が制限されました。またはコンテンツ全体のコーパスのサンプルセットを手動で翻訳し、その翻訳済みのセットでツール一式をすべて実行していました。これら両方のプロセスを組合わせることもありました。しかしながらこのようなスタッフの人手によるソリューションでは拡張性がなく、効率的ではありませんでした。1,000 本のメディア記事サンプルを手動で翻訳するには、約 2 週間かかります。これではお客様にタイムリーなナラティブ分析を提供するには遅すぎます。 こうした状況を Amazon Translate は変えてくれました。多言語コンテンツを英語に素早くそして効率的に翻訳し、当社のナラティブプラットフォームで分析できるようになったのです。過去に他の機械翻訳サービスをいくつか試してみましたが、パフォーマンス、コスト、場合によっては長期契約しなければならないという点でどれも満足行くものではありませんでした。一方 Amazon Translate は、スピード、翻訳の正確さ、費用対効果、そしてオンデマンドの柔軟性という最適な組み合わせで当社のニーズを満たしてくれたのです。これまで翻訳に 2 週間以上かかっていたものが、Amazon Translate を使用することで今では数分で完了できます。 2018 年にお客様の 1 社である Omidyar Network (ON) […]

Read More

シンガポールで開催された AWS DeepRacer リーグのレースで開発者が世界記録を更新

AWS DeepRacer リーグは、スキルレベルを問わず開発者が参加できる世界初の自走型レーシングリーグです。今週 (4 月 10〜11 日)、シンガポールで開催されました。これは、世界中で行われるサミットサーキットでの 20 レースのうちの 3 レース目です。  カリフォルニア州サンタクララとフランスのパリでの最初の 2 レースに続いて、シンガポールの開発者コミュニティの実力が示されて興奮が高まりました。たしかに、シンガポールチャンピオンの Juv Chan が 9.090 秒という新しい世界記録のラップタイムを記録して、その実力は証明されました。実際、シンガポールサミットのリーダーボードのトップ 7 のラップタイムは、すべてそれまでのリーダーボードの最上位 (サンタクララのレースで Chris Miller が記録した 10.43 秒) を上回ったのです。シンガポール、お見事です!

Read More

多言語対応自動字幕トラックを使用した AWS ライブストリーミングを始めよう

多言語対応自動字幕トラックを使用したライブストリーミング は、ライブストリーミングビデオのコンテンツに、多言語字幕をリアルタイムで自動生成するためのソリューションです。このソリューションをそのまま使用することも、特定のユースケースに合わせてソリューションをカスタマイズすることも、AWS パートナーネットワーク (APN) パートナーと協力してエンドツーエンドの字幕作成ワークフローを実装することもできます。 AWS ライブストリーミング のソリューションをベースとして、この実装には Amazon Transcribe や Amazon Translate といった機械学習サービスが組み合わされています。このソリューションは、いわゆるオーバーザトップ (OTT) のライブチャネルに最終的な段階で字幕を自動生成を提供します。一般に字幕を作成するのに高い翻訳費用がかかりますが、専門の翻訳家を雇う必要はありません。また、このソリューションは、基本のアーキテクチャを拡張したいと考える誰でも利用可能な、オープンソースの形で提供されています。独自のワークフローに合わせ込むためのカスタム機能を追加できるのです。GitHub のリポジトリは こちらから入手可能です。 他に提供されている AWS ソリューションは、「AWS ソリューションポートフォリオを詳しく見る」から入手可能です。お客様は、特定ビジネスニーズに対応する AWS の検証済みで、自動化された、ターンキーリファレンス実装を製品カテゴリーや業界別にソリューションを見つけることができます。 注: このブログ投稿で解説するソリューションは、Amazon Transcribe Streaming、AWS MediaLive、AWS MediaPackage を使用しています。こちらは現在、特定の AWS リージョンでのみ利用可能です。したがってこのソリューションは、これらすべてのサービスが利用可能な AWS リージョンで起動する必要があります。リージョン別の最新の AWS サービスの提供状況については、「製品およびサービス一覧 (リージョン別) 」をご覧ください。 ステップ 1: 多言語対応自動字幕トラックを使ったライブストリーミングのデプロイ AWS マネジメントコンソールにサインインした後、「Live Streaming with Automated Multi-Language Subtitling」ソリューションのページへ移動します。[Launch solution in the AWS Console] をクリックします。 ステップ 2: AWS […]

Read More

EC2 用の Amazon Elastic Inference 設定ツールを使用して、EI アクセラレータを数分で起動する

Amazon Elastic Inference (EI) 設定ツールは、EI をすぐに使い始めることができる Python スクリプトです。 Amazon Elastic Inference を使用すると、低コストの GPU によるアクセラレーションを Amazon EC2 および Amazon SageMaker のインスタンスに適用して、深層学習推論の実行コストを最大 75 パーセント削減することができます。初めてEIを使用する場合は、アマゾン ウェブ サービス (AWS) PrivateLink VPC エンドポイント、IAM ポリシー、セキュリティグループルールなど、設定が必要な依存関係がいくつかあります。この作業を早く行えるように、EI 設定スクリプトを使用すると、必要なリソースを作成することで作業を簡単に始めることができて、EI アクセラレータを数分で起動できるようになります。このブログ記事では、スクリプトの使用方法、スクリプトの機能、実行時に予想されることについて説明します。 高レベルで言うと、このスクリプトは以下のことを行います。 AWS Elastic Inference サービスに接続できるようにする IAM ポリシーを使用して、インスタンスの IAM ロールを作成します。 インスタンスがアクセラレータと通信できるようにするために必要な入力ルールと出力ルールを使用してセキュリティグループを作成します。 目的のサブネット内に AWS PrivateLink VPC エンドポイントを作成します。 選択したオペレーティングシステム用の最新の AWS Deep Learning AMI (DLAMI) を使用して、EI アクセラレータで目的の EC2 インスタンスを起動します。 前提条件 EI を設定するには、以下でリンクされているスクリプトを実行します。以下のエンティティに依存しています。 […]

Read More