Amazon Web Services ブログ

Category: Artificial Intelligence

Amazon SageMaker Ground Truth を使ったカスタムデータラベリングワークフローの構築

優れた機械学習モデルは大量の高品質トレーニングデータで構築されていますが、このようなトレーニングデータの作成は高額かつ複雑で、時間もかかります。モデルが正しい判断を行う方法を学べるように助けるには、通常、人に手動でトレーニングデータへのラベル付けを行ってもらう必要があります。 Amazon SageMaker Ground Truth は、人が画像とテキストの分類、物体検出、およびセマンティックセグメンテーションのラベリングジョブに取り組むためのラベリングワークフローを提供します。また、データラベリングジョブ用のユーザーインターフェイス (UI) を定義するためのカスタムワークフローを構築することもできます。これらを開始できるようユーザーを援助するために、Amazon SageMaker は画像、テキスト、および音声データのラベリングジョブのためのカスタムテンプレートを提供します。これらのテンプレートは、データラベリング UI の構築をシンプル化する Amazon SageMaker Ground Truth の crowd HTML 要素を使用します。UI には独自の HTML を指定することも可能です。 カスタムワークフローは、以下にある理由のために構築するとよいでしょう。 カスタムデータラベリング要件がある。 入力データが複雑で、タスクごとに複数の要素 (例えば、画像、テキスト、またはカスタムメタデータ) がある。 タスクの作成時に特定のアイテムがラベラーに送信されないようにしたい。 ラベリング出力を統合し、精度を向上させるためのカスタムロジックが必要。 IEEE が後援する学会のような科学学会には何千編ものアブストラクトが届き、これらは手作業でレビューされます。科学論文の典型的なアブストラクトには、背景、目的、手法、結果、限界、および結論といった情報が含まれます。何千編ものアブストラクトについてこれらのセクション、つまりエンティティをレビューすることは、手間のかかる作業になり得ます。 必要なエンティティのすべてに自動でタグ付けすることによってレビューアーを助けることができる自然言語処理 (NLP) モデルがあったとしたらどうでしょう? テキストラベリングツールが投稿されたアブストラクトからエンティティを抽出できるととしたらどうでしょうか? Amazon Comprehend は、テキスト内のインサイトと関係性を見つけるために機械学習を使用する自然言語処理 (NLP) サービスですが、この記事では、固有表現抽出 (NER) モデル用のトレーニングデータセットを構築するための、科学論文アブストラクトから名前付きエンティティを抽出するカスタムテキストラベリングワークフローの構築について段階的に説明していき、ユーザー独自の既存のウェブテンプレートを Amazon SageMaker Ground Truth に簡単に取り入れる方法を紹介します。 ソリューションの概要 カスタムワークフローの構築には、arxiv.org のご厚意により提供された科学論文 10 編の最初のページからの入力画像を使用しました。 論文からのテキストの抽出には、Amazon Textract […]

Read More

AWS DeepRacer League で競って勝つための方法の紹介と、2 人の新チャンピオンの誕生!

AWS DeepRacer League にとっては忙しい週となりました。世界初のグローバルな自走型レーシングのリーグでは、あらゆるスキルレベルの 機械学習開発者が楽しくエキサイティングな方法で機械学習を実際に体験できます。 2019 年 4 月 29 日、AWS DeepRacer League の仮想サーキットがオープンしました。仮想サーキットでは、AWS DeepRacer コンソールを使用して、レーサーたちは世界中のどこからでも競争することができます。開発者は、仮想サーキットのワールドツアーに参加して競うことで、自分のスキルの腕試しを行えます。この仮想トラックは有名なレースコースからアイデアを得たもので、毎月発表される予定です。参加者は賞 や栄誉をかけて競います。入賞者には、re:Invent 2019 で開催される AWS DeepRacer チャンピオンカップへの出場権が付与されます。仮想ワールドツアーの最初のレーストラックは、ロンドンループとして知られるイギリスのシルバーストーンにある有名なレースコースからヒントを得たものです。レースは 5 月 31 日まで開かれ、世界各地の開発者が、すでにすばらしいラップタイムを叩き出しています。AWS DeepRacer League バーチャルサーキットで勝者として名乗りをあげるため、今すぐレースに参加しましょう! シドニー Summit の入賞者 仮想サーキットに加えて、AWS Summit のカレンダーの第 7 レースがオーストラリアのシドニーで開催されました。シドニーの AWS Summit は 2 日間にわたって盛大に行われ、クラウドコミュニティが一堂に会して AWS のサービスを学び、実際に体験することができました。AWS DeepRacer League には、48 時間を超えて競い合うレース用のトラックが 3 つ用意されました。何百人ものレーサーたちが表彰台でチャンピオンに輝くためにトラックで腕を競い合ったレースでは、期待が裏切られることはありませんでした。 優勝した Matt Kerrison (Matt@GJI) さんは、他の […]

Read More

Udacity の機械学習ナノ学位プログラムに Amazon SageMaker が追加されました

ここ数年の間に、機械学習のスペシャリストとエンジニアの需要が急増しています。これら 2 つの役割は現在、LinkedIn で最も注目されている職種にランクインしています。ここ最近では、機械学習は、医療診断会社から金融機関その他まで、幅広い業界で採用されています。Udacity はこの需要に応えて機械学習ナノ学位プログラム入門と機械学習エンジニアナノ学位プログラムを作成し、より幅広い視聴者がこの技術分野へアクセスできるようにしました。 ボイスアシスタントやリコメンデーションエンジンなどの世界的に利用できるプロダクションアプリケーションに機械学習モデルを統合できるエンジニアに対する需要が高まっています。機械学習モデルを構築する方法を知ることは素晴らしい出発点です。けれども、真の影響を与えるためには、データサイエンティストや開発者は、モデルをラボから実世界に取り込む方法を理解し、何千何万という予測に活かすことができるようにする必要があります。 「最新の AI スキルに対する業界の需要は過去最高に高まっています。Amazon と共同で、AWS プラットフォームで世界中のどこでも最新の機械学習デプロイスキルを習得できるようにするために、Udacity の機械学習ナノ学位プログラムを更新しました」と Udacity の共同設立者、社長兼会長の Sebastian Thrun 氏は言います。 AWS Educate と Amazon SageMaker は、Udacity と共同で 機械学習エンジニアナノ学位プログラムの新しいデプロイメントコンテンツを作成しました。AWS Educate は、Udacity の生徒が AWS のコンテンツと AWS のプロモーションクレジットへアクセスできるようにしています。これらの利点により、生徒は AWS の内容領域専門家 (SME) と連携して開発した課題に Amazon SageMaker を使用することができます。このコースでは、実世界のタスクに大規模に適用されるさまざまな機械学習モデルについて説明しています。生徒は教師ありと教師なしの両方のアルゴリズムをデプロイする方法を学び、それらをフィーチャーエンジニアリングや時系列予測などのタスクに適用します。このコンテンツは、次のような質問に対処します。 与えられたタスクにピッタリの機械学習モデルをどのように決定するか? Amazon SageMaker などのクラウドデプロイメントツールを使用してデータを操作し、機械学習モデルを改善するにはどうすればよいか? Udacity.com による機械学習エンジニアナノ学位プログラムの説明 モデルのデプロイについて学ぶことに加えて、生徒はモデルの提供と更新についても学びます。このコースでは、AWS API を使用して、デプロイされたセンチメント分析モデルをウェブサイトに接続する方法を説明しています。モデルをデプロイした後、基礎となるテキストデータの変更を説明するためにそれを更新します。これは、データを継続的に収集する業界で特に価値のあるスキルです。このセクションの終わりまでに、生徒は自分の設計のタスクを解決するためにモデルをトレーニングしてデプロイするのに必要なスキルを身につけているはずです。 初級者から上級者までの機械学習コース Udacity の機械学習入門および機械学習エンジニアのナノ学位プログラムは、Udacity’s AI of School の一部です。それはソフトウェア開発者によってソフトウェア開発者のために設計された一連の無料のコースおよびナノ学位プログラムです。機械学習に慣れていないのであれば、Udacity […]

Read More

Amazon SageMaker Ground Truth が、ラベル付けワークフローを簡素化し続ける

AWS re:Invent 2018 で発表された Amazon SageMaker Ground Truth は Amazon SageMaker の機能であり、機械学習システムのトレーニングに必要なデータセットの効率的で高精度なラベル付けをお客様が簡単に行えるようにします。 Amazon SageMaker Ground Truth の簡単なまとめ Amazon SageMaker Ground Truth は、機械学習用の高精度なトレーニングデータセットをすばやく構築するお手伝いをします。SageMaker Ground Truth を使用すると、パブリックおよびプライベートでラベル付けを行う人間の作業者への簡単なアクセスと、一般的なラベル付けタスクのための組み込みのワークフローとインターフェースが提供されます。さらに、SageMaker Ground Truth は自動データラベル付けを使用してラベル付けのコストを最大 70% 削減します。自動データラベル付けは、人間がラベルを付けたデータから Ground Truth をトレーニングし、サービスが独自にデータにラベルを付けることを学習することによって機能します。 Amazon SageMaker Ground Truth は以下のデータセットの構築をお手伝いします。 テキスト分類。 画像分類 (画像を特定のクラスに分類する)。 物体検出 (画像内の物体の位置をバウンディングボックスとともに取得)。 セマンティックセグメンテーション (ピクセル精度で画像内の物体の位置を取得)。 文字通りお客様が何でも注釈を付けることができるカスタムのユーザー定義タスク。 ラベラーのチームを使用して、ラベル付けの要求を直接ラベラーにルーティングすることを選択できます。あるいは、スケールアップが必要な場合は、組織外のラベラーと連携するためのオプションが Amazon SageMaker Ground Truth コンソールに直接表示されます。Amazon Mechanical Turk との統合により、50 […]

Read More

Alkymi が、AWS を活用して自動化されたデータ入力とドキュメントインサイトでドキュメントの煩雑さを解消

現代の高度にデジタル化された職場であっても、ドキュメントは多くの場合、金融サービスを含めて、企業のワークフローで手作業によって処理されています。 Bloomberg および x.ai からのチームによって設立された Alkymi は、こうした面倒で間違いが発生しやすい作業を合理化する自動化を推進しています。Amazon SageMaker でホストされている深層学習モデルを使用して、Alkymi は非構造化データのパターンと関係を特定し、ドキュメントを実行可能なデータに統合します。  これにより、企業は自動化に対する頑固な障壁を取り除くことで、プロセスにおいて数十億ドルを節約できる可能性があります。 Alkymi は、AWS を主な AI/ML プラットフォームとして利用しています。Alkymi の CEO である Harald Collet 氏は「当社では、AI を適用して人間の理解力を必要とするドキュメントに関するタスクを自動化しています。AWS を使用することで、金融サービスの顧客が必要とするセキュリティとスケーラビリティを備えた新しい機能を迅速に開始することができます」と述べています。  Alkymi がドキュメント、E メール、画像を取り込むと、プラットフォームはさまざまな AWS のサービスを使用してデータ抽出およびデータ入力タスクを自動化します。  「AWS によって、プラットフォームを拡張し、あらゆる規模の顧客に対応することができます。Amazon SageMaker は、モデルを実稼働に向けてトレーニングおよびデプロイする方法をデータサイエンティストに提供することによって、当社の開発プロセスを改善しました」と、Alkymi の CTO である Steven She 氏は言います。 Alkymi のデータパイプラインは、Amazon Elastic Container Service (ECS) でホストされている REST API を介して、または Amazon Simple Email Service (SES) によって受信した E […]

Read More

Amazon SageMaker Object2Vec が、自動ネガティブサンプリングをサポートし、トレーニングをスピードアップする新機能を追加

本日は、Amazon SageMaker Object2Vec の 4 つの新機能を紹介いたします。ネガティブサンプリング、スパース勾配更新、重み共有、比較演算子のカスタマイズです。Amazon SageMaker Object2Vec は、汎用のニューラル埋め込みアルゴリズムです。Object2Vec についてまだ良く知らない場合は、ブログ記事 Amazon SageMaker Object2Vec の概要を参照してください。この記事は、この新機能 (Object2Vec を使用して、ドキュメント埋め込みを学習する) の一部として追加された 4 つのノートブックの例へのリンクを使用して、アルゴリズムの概要を説明します。また、技術的な詳細を提供するドキュメンテーションページ Object2Vec アルゴリズムへのリンクも提供します。これらの新機能には、Amazon SageMaker コンソールからアルゴリズムのハイパーパラメータとして、そして高レベルの Amazon SageMaker Python API を使用して、アクセスすることができます。 このブログ記事では、以下の新機能のそれぞれについて説明し、それがどのように顧客の問題点をターゲットにしているかを示します。 ネガティブサンプリング: 以前は、ポジティブにラベル付けされたデータだけが使用可能であるユースケース (この記事の後半で説明しているドキュメント埋め込みのユースケースなど) では、データ前処理の一部として手動でネガティブサンプリングを実装する必要がありました。新しいネガティブサンプリング機能により、Object2Vec は観測される可能性が低いデータを自動的にサンプリングし、トレーニング中にこのデータをネガティブとラベル付けします。 スパース勾配更新: 以前は、アルゴリズムのトレーニング速度はマルチ GPU に対応して拡張することができず、入力語彙サイズが大きくなるにつれて遅くなりました。これは、デフォルトでは、勾配のほとんどの行がゼロ値であっても MXNet オプティマイザがフル勾配を計算するためです。そのため、不要な計算が行われるだけでなく、マルチ GPU 設定での通信コストも増加します。スパース勾配更新を使用する Object2Vec は、パフォーマンスを低下させることなくシングル GPU トレーニングを高速化します。さらに、トレーニング速度はマルチ GPU でさらに向上させることができ、現在は語彙サイズとも無関係になっています。 重み共有: Object2Vec には、2 つの入力ソースからのデータをエンコードするために、それぞれ独自のトークン埋め込みレイヤーを持つ 2 つのエンコーダーがあります。両方のソースが同じトークンレベルのユニットの上に構築されているユースケースでは、トークン埋め込みレイヤーを共同でトレーニングすることは一般的なやり方です (深層学習コミュニティでは、重み共有と呼んでいます)。新しい重み共有機能により、このオプションが提供されます。 […]

Read More

集合知と Amazon SageMaker Ground Truth を併用したアノテーション精度の向上

Amazon SageMaker Ground Truthは、Machine Learning (ML) 用の高精度なトレーニングデータセットをすばやく構築するお手伝いをします。ご自身のワークフォース、データラベリングに特化したベンダー管理ワークフォースの選択、または Amazon Mechanical Turk が提供するパブリックワークフォースを使用して、データにラベルを生成することができます。 パブリックワークフォースは大規模で経済的ですが、多様なワーカーと同様で、ミスも生まれやすくなります。このような低品質のアノテーションから高品質のラベルを作成する 1 つの方法は、同じ項目の異なるワーカーからの応答を 1 つのラベルに体系的に結合することです。Amazon SageMaker Ground Truth には、この集計を実行する組み込みのアノテーション統合アルゴリズムが含まれているため、ラベリング作業の結果として精度の高いラベルを取得できます。 このブログ記事では、分類を行う場合 (例: “owl”、“falcon”、“parrot” などの画像にラベル付けする) に焦点を当て、単一の回答と多数決の 2 つの競合するベースラインアプローチに対するメリットを示します。 背景 ラベル付きデータセットを生成する最も簡単な方法は、各画像をシングルワーカーに送信することです。ただし、各画像がシングルワーカーによってのみラベル付けされているデータセットでは、品質が低下する可能性が高くなります。スキルの低さや無関心などの要因によって、低品質のラベルを提供するワーカーからエラーが入り込むことがあります。回答を複数のワーカーから引き出し、一定の原則に沿って集計すれば、品質を向上させることができます。複数のアノテーターの回答を簡単に集計するには、多数決 (MV) を使用します。多数決では、最も多くの票を獲得したラベルを単純に出力し、任意の結びつきをランダムに解消します。そのため、3 人のワーカーがそれぞれ、“owl”、“owl”、“falcon” と画像にラベル付けした場合、MV は最終ラベルとして、“owl” を出力します。また、3 人のワーカーのうち 2 人から “owl” という回答が得られたため、この出力に 0.67(= 2/3)の信頼度を割り当てることもできます。 単純で直感的なことですが、原則として MV は ワーカーのスキルが異なると、多くのマークを見逃します。たとえば、最初の 2 人のワーカー (両方とも “owl” というラベルを指定している) は 60% の確率で正しい傾向があり、最後のワーカー (“falcon” […]

Read More

【開催報告】第4回 Amazon SageMaker 事例祭り

アマゾン ウェブ サービス ジャパン株式会社 (AWS) アソシエイトソリューションアーキテクトの小田桐昂史です。 AWS 目黒オフィスでは、お客様の事例紹介登壇を交えた Amazon SageMaker のセミナーとして、「Amazon SageMaker 事例祭り」を毎月開催しています。2019年4月17日に開催された第4回 Amzon SageMaker 事例祭りでは、GMOクラウド株式会社の山下様、株式会社オークネット・アイビーエスの黒柳様、株式会社ミクシィの岩瀬様をゲストスピーカーにお迎えし、Amazon SageMakerの基礎から、具体的な導入・運用事例まで、100名を超える大勢の方にお越しいただき、会場は満員でした。   Amazon SageMaker 紹介 「Amazon SageMaker の基礎」 アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト 鮫島 正樹 [slides] AWS ソリューションアーキテクトの鮫島より、AWSの機械学習のマネージドサービスであるAmazon SageMakerの基礎について紹介しました。まず、開発・学習・推論といった一連の機械学習のワークフローにおける課題を整理し、それぞれAmazon SageMakerを活用することでどのように解決できるかを説明しました。Amazon SageMakerを利用することで、必要に応じて必要なだけリソースを開発・学習・推論向けに確保できるほか、APIを1つ呼ぶだけで複数インスタンスによる分散学習やエンドポイントの作成が可能です。Amazon SageMakerはワークフロー全てで取り入れる必要はなく、必要なフェーズで取り入れることができます。また、SDKやコンテナ環境はオープンソースで公開されており、同様の環境をオンプレミスでも実現することができます。最後のデモでは、Amazon SageMakerの画面操作を見ていただき、サービスの使い方をイメージしやすい形で紹介いたしました。   「Amazon SageMaker Ground Truth の使い方」 アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト 針原 佳貴 [slides] Amazon SageMaker Ground TruthはAWS re:Invent 2018で発表されたAmazon SageMakerの新機能です。Amazon SageMaker […]

Read More

3 つの AWS DeepRacer League – 3 つの国、3 つのレース、3 人の新チャンピオン!

AWS DeepRacer League は、世界初の自走型レースリーグです。あらゆるスキルレベルの開発者が機械学習を実地で体験して楽しめる機会を提供しています。 この AWS DeepRacer League が、2019 年 4 月 17 日に初めて、3 つのレースのライブイベントを 3 つの国々で同日に開催し、レースは真にグローバルなものとなりました。このイベントでは、新たに 3 人の AWS DeepRacer League チャンピオンが栄冠に輝きました。3 人は全員、re:Invent 2019 に無料招待され、AWS DeepRacer Championship Cup の最終レースに挑みます。 太陽を追ってチャンピオンに栄冠を授与 レースは韓国のソウルから始まりました。ソウルでは、現チャンピオンであるシンガポールの Juv Chan が出した世界記録を破ろうと開発者たちがレースに臨みました。 ソウルのイベントは、Summit サーキットのカレンダーでは 2 番目となる 2 日間のイベントです。初日の予選の終了時点で目標は高く設定されました。レーサーたちは、首位の奪取を目指して 2 日目のレースに臨みました。初日が終了した時点では、「Steve’s」の自走型車両のタイムが 10 秒を切っていました。その時点で、世界記録との差は約 10 分の 8 秒です。 ソウルで初日のレースが終わりかけたころ、今度は、UAE のドバイで開発者たちがレースを開始しました。大勢の観衆が詰めかけ、開発者がトラック上で自分のスキルを試す様子を見守りました。レースは接戦となりましたが、”Mats @ virgin mobile” が […]

Read More

Amazon Polly によるアラビア語サポートの追加

 2019 年 4 月 17 日、 Amazon Polly は Zeina と呼ばれるアラビア語の女性テキスト読み上げ (TTS) 音声の提供を開始しました。この声は明瞭かつ自然に聞こえ、他のすべての Amazon Polly 製品と同様に、早口言葉を習得し、ささやくことができます。Zeina の自己紹介を聞いてみましょう。 今すぐ再生する Amazon Pollyによる音声 こんにちは。私の名前は Zeina です。私はアラビア語の Amazon Polly 音声です。よろしくお願いします。 مَرْحَباً، اِسْمِي زينة، أَنا اَلْصَوْتُ اَلْعَرَبِيُّ فِي أمازون بولي، سَعِدْتُ بِلِقائِكُم. こちらは Zeina の能力を実証する早口言葉です。 今すぐ再生する Amazon Pollyによる音声 王子たる王子が砂漠で井戸を掘るように命じられましたが、この文にはいくつの R があるでしょう? أَمَرَ أَمِيرُ اَلْأُمَراءِ، بِحَفْرِ بِئْرٍ فِي اَلْصَحْراءِ. فَكَمْ […]

Read More