Amazon Web Services ブログ

Category: Artificial Intelligence

Amazon Rekognition Video: ディープラーニングベースのビデオ認識

  Amazon Rekognitionを発表したのは昨年のre:Invent 2016期間中でした。手を汚してコードを書き、サービスを活用して画像認識ソリューションを構築するのにとても興奮しました。ご存知かもしれませんが、Amazon Rekognition Imageは、ディープラーニングを利用してスケーラブルな画像認識と分析を提供するクラウドサービスです。Rekognitionを利用して、オブジェクトとシーンの検出、リアルタイム顔認識、セレブリティ認識、節度の認識だけではなく、テキスト認識をアプリケーションやシステム統合して構築することができます。 Amazon Rekognition Imageサービスは、深層ニューラルネットワークモデルを利用して作成されており、Prime Photosで毎日数億の画像分析を可能にしているのと同じテクノロジーに基づいています。これまで、Rekognitionはスケーラビリティ、自動的な分析、サーチ、画像の分類を提供することに重点的にフォーカスしてリリースされてきました。今その全てが変わっています。今回、このサービスの幾つかの追加機能についてお伝えできることを嬉しく思います。

Read More

Amazon EMR での Apache MXNet および Apache Spark を使用した分散推論

このブログでは、Amazon EMR で Apache MXNet (incubating) および Apache Spark を使用して大規模なデータセットで分散オフライン推論を実行する方法を説明します。オフライン推論がどのように役立つのか、課題となる理由、および、Amazon EMR で MXNet と Spark を活用して課題を解決する方法を説明します。 大規模データセットでの分散推論 – ニーズと課題 ディープラーニングモデルのトレーニングの後、新しいデータ上で推論を実行して活用します。推論は、不正検出など、その場でのフィードバックが必要なタスクでリアルタイムに実行できます。これは通常オンライン推論と呼ばれています。または、事前計算が役立つ場合は、推論をオフラインで実行できます。オフライン推論のよくあるユースケースは、ユーザーの製品スコアのソートやランク付けを必要とする推奨システムなど、レイテンシー要件が低いサービスです。これらのケースでは、推奨はオフライン推論を使用して事前計算されます。結果は低レイテンシーストレージに保存され、必要に応じて、推奨がストレージから引き出されます。オフライン推論の別のユースケースは、最新モデルから生成された予測による履歴データのバックフィリングです。仮の例として、新聞でこの設定を使用して、人物識別モデルから予測された人物の名前でアーカイブされた写真をバックフィルできます。また、分散推論を使用して、歴史的なデータで新しいモデルをテストし、本番稼働用にデプロイする前により良い結果を生み出すかどうかを確認できます。 通常、分散推論は数百万以上のレコードがあるような大規模なデータセットで実行されます。妥当な時間内にそのような巨大なデータセットを処理するには、ディープラーニングの機能をセットアップされたマシンクラスターが必要です。分散クラスターでは、データ分割、バッチ処理、タスクの並列化を使用した高いスループット処理ができます。ただし、ディープラーニングデータ処理クラスターをセットアップするには課題もあります。 クラスターのセットアップと管理: ノードのセットアップとモニタリング、高い可用性の維持、ソフトウェアパッケージのデプロイと設定など。 リソースとジョブの管理: ジョブのスケジューリングと追跡、データ分割とジョブの障害への対処。 ディープラーニングのセットアップ: ディープラーニングタスクのデプロイ、設定、および実行。 次に、このブログの投稿では、Amazon EMR で MXNet および Spark を使用してこれらの課題に対処する方法を示します。

Read More

Amazon Polly を使用して音声電話で AWS アカウントのセキュリティイベントに関するアラートを受信

AWS アカウントのセキュリティは極めて重要です。AWS アカウントのセキュリティに関するイベントの最新情報を把握しておくことが大切です。メールや SMS など、様々な方法で通知を受け取ることができますが、今回のブログでは Amazon Polly といった Amazon AI サービスや、Twilio のようなクラウドベースによるコミュニケーションプラットフォームを使用して音声アラートを受信する方法をご紹介します。 Amazon Polly はテキストを肉声のように読み上げるサービスで、スピーチが可能なアプリケーションの作成を可能にします。これは音声対応製品の全く新しいカテゴリです。Polly はディープラーニング技術を使用して、肉声のような音声を合成します。様々な言語を色々な音声で提供します。 移動が多いエンタープライズ IT セキュリティの社員にとって、AWS アカウントのセキュリティイベントのアラートを音声電話で聞くことができるのは実に便利です。セキュリティイベントは、その重要度や優先度を元にカスタムで定義できます。重要度や優先度のレベルが高いセキュリティイベントに関するアラートを、電話を介してシステムに送ることができます。 音声電話によるアラートを利用する上で、私は音声、ビデオ、メッセージングといった API 機能を提供する Twilio を使用しています。Twilio のプラットフォームを使用し、AWS アカウントでセキュリティイベントが発生した時に音声電話を掛ける API 呼び出しを発行するようにプログラムすることができます。Amazon Polly はテキストのアラートを音声メッセージに変換して電話で再生することができます。 ソリューションの概要 このソリューションは次のアーキテクチャ図で示した 2 つのシステムから構成されています。 イベント検出と通知システム テキストを音声に変換するシステム イベント検出と通知システムは、テキストから音声に変換するシステムから分離されます。他のユーザーが定義したイベント検出において後者が一般的なためです。このブログでは、テキストから音声に変換するシステムを取り上げ、過去のブログで紹介したイベント検出と通知システムをソリューションの例として使用します。

Read More

Amazon Lex を使った Bot の作成

Jeff Barr がブログでの紹介の投稿でご説明したように、Amazon Lex は、開発者が音声とテキストを使用してアプリケーションで対話式のインターフェイスを構築できるようにするサービスです。Amazon Lex を使うと、すべての開発者が Amazon Alexa に採用されている深層学習技術と同じ技術を利用し、自然言語での高度な対話ボット (チャットボット) を短時間で簡単に構築できるようになります。Amazon Lex では、自動音声認識 (ASR) という音声をテキストに変換するための高度な深層学習テクノロジーと、テキストの意図を理解するための自然言語理解 (NLU) を利用できます。これにより、ユーザーにとって使いやすく魅力的なアプリケーションを構築できます。 では、Amazon Lex で機能的なチャットボットを開発するには、どうすればいいでしょうか。ドキュメント内の例の 1 つを利用すれば、1、2 分でチャットボットを使用してやり取りを開始することができます。もちろん、これはきっかけにはなりますが、まったく十分とはいえません。では、チャットボットを構築するために、何をする必要があるかを見てみましょう。 基本 チャットボット設計は、確立基準がほとんどない発生期の領域です。実際のユーザーとやり取りしなければ、何が面倒で何が快適かを理解することはできません。このセクションは、ボット設計のガイドではなく、設計上の考慮事項を探るものとして扱うことをお勧めします。以下は、Amazon Alexa との何百万回ものやり取りから学んだことです。 Simon Sinek はチャットボットがなぜ存在するかという疑問から始めることを奨励しています。優れた設計は明確な目標から始まります。それにはまず、ユーザーがどんな人か、何を達成しようとしているのかを理解する必要があります。 また、モダリティとミディアムのことも考える必要があります。音声インターフェイスは確かに便利ですが、ユーザーが注意を払っていなかったり、単に聞こえていなかったりすることも想定して、最後のプロンプトを繰り返したり、「何?」とか「どこまでいったっけ?」といった反応にも適切に対応できなければなりません。テキストのインターフェイスでは、これは不要でしょう。一部のテキストインターフェイスでは、画像とボタンの付いたレスポンスカードもサポートされています。 インターフェイスを設計する者にとって、強調は不可欠な手法です。これは、情報を提示したり、特定の選択肢を推奨する基準となります。明確性を実現するための規則はモード (ウェブ UI かチャットか音声か) によって異なります。目標とモードに応じて、強調のためのツールは異なる可能性があります。次の例を見て、3 つのそれぞれのモードにおける注文方法について検討してみてください。   これで注文してよろしいですか。 (はい/いいえ) ____ を注文したいとのことですが、それでよろしいですか。  ウェブ (ポイントアンドクリック) チャット (テキスト) 言語 (音声認識) ウェブの場合、「注文を確定する」を強調することで、それが推奨される選択肢であることを明確化し、このアクションによって顧客が注文にコミットすることを確認する必要があります。チャットでは、オプションを括弧で囲むことで、ユーザーに何が期待されているかを示すのが慣例となっています。また、テキストの配置や空白文字、大文字などで強調することもできます。 音声操作では、このような慣例に代わって、注文がいつ実行されるかをユーザー自身がコントロールしていることを保証する新しい基準が必要となります。たとえば、注文に大幅な変更がある場合は、確認することができます。さらに、音声の場合、強調のためにゆっくりと話すなど、話す速度をコントロールすることも可能です。他の方法が使用できない場合は、単に繰り返すだけでもかまいません。以下の例を見てみましょう。 ご注文の合計額は 55 ドルです。 この注文を実行して、このアカウントに登録されているカードに […]

Read More

AWS ディープラーニング AMI を使用してディープラーニングを開始

ディープラーニングの初心者、また高度なディープラーニングプロジェクトをクラウドで構築したい方でも、AWS を使えば簡単に始められます。 AWS ディープラーニング AMIs は Ubuntu と Amazon Linux バージョンでの利用が可能になっており、いかなるスケールでもクラウドでディープラーニングアプリケーションを実行できるようにします。Amazon マシンイメージ (AMIs) には、Apache MXNet、TensorFlow、Microsoft Cognitive Toolkit (CNTK)、Caffe、Caffe2、Theano、Torch、Keras を含むオープンソースのディープラーニングフレームワークがプリインストールされています。 AMIs では、カスタムの AI モデルをトレーニングしたり、新しいアルゴリズムを試したり、新たなディープラーニングのスキルやテクニックを学ぶことができます。AMIs に追加料金はかかりません。アプリケーションを保存し実行するために必要な AWS のリソースに対してのみお支払いいただきます。 また、AMIs は事前設定されている CUDA や cuDNN ドライバー、Intel Math カーネルライブラリ (MKL) を介して GPU に加速度を提供しています。AMIs には人気の Python パッケージや Anaconda プラットフォームも含まれています。 そのシンプルさ、使いやすさ、コスト節約など、開発者へのメリットは明らかです。そしてコンピューティングインスタンスの起動も簡単です。次の手順に従うと、数分でディープラーニングを開始することができます。  AMI の起動 AWS マネジメントコンソールにアクセスし、アカウントにサインインするか新しいアカウントを作成します。

Read More

Amazon EMR で GPU インスタンスタイプを持つディープラーニングフレームワークを実行

AWS は Apache MXNet と Amazon EMR での新世代 GPU インスタンスタイプのサポートについて発表いたします。これにより、機械学習ワークフローおよびビッグデータ処理とともに分散ディープニューラルネットワークの実行が可能になります。さらに、GPU ハードウェアにより、EMR クラスター上でカスタムディープラーニングライブラリをインストールおよび実行できます。ディープラーニングフレームワークの使用を通じて、自動運転車から人工知能 (AI)、個人化されたヘルスケア、コンピュータビジョンまで、さまざまなユースケースに対応する新しいツールキットを入手できます。 Amazon EMR は、Apache Spark、Apache Hive、Presto、Apache HBase、Apache Flink などのフレームワークとともに、Amazon S3 で大量のデータを簡単かつ迅速に、コスト効率の高い方法で処理できるマネージド型 Hadoop フレームワークを提供します。ログの分析、ウェブインデックス作成、データ変換 (ETL)、財務分析、科学シミュレーション、リアルタイム処理、バイオインフォマティクスを含む、数多くのビッグデータのユースケースに低コストで対応し、確実かつ安全に処理できます。 EMR には、スケーラブルな機械学習ワークロードを実行可能にしてきた長い歴史があります。2013 年には、Apache Hadoop MapReduce を使用した分散型機械学習ワークロードの実行を支援するため、Apache Mahout のサポートが追加されました。2014 年には、お客様は Apache Spark を利用して (2015 年に公式サポートを追加)、Spark ML で利用できるさまざまなオープンソース機械学習ライブラリを使用して、スケーラブルな機械学習パイプラインを簡単に構築し始めました。 当社は過去 2 年間に、Jupyter ノートブックの簡単なインストールのための Apache Zeppelin ノートブックのサポート、およびデータサイエンティストが機械学習モデルを簡単かつ迅速に開発、トレーニングし、本番稼働に移行するための Apache Livy のサポートを追加しました。EMR の 1 秒あたりの請求と […]

Read More

自律走行車の構築 パート 4: 自動運転の車で Apache MXNet と行動クローニングを使用

自律走行シリーズ 1 回目のブログでは、Donkey カーの構築と Amazon EC2 インスタンスでパイロットサーバーをデプロイしました。そして、2 回目のブログでは Donkey カーの運転を学び、Donkey カーが自律走行を学びました。3 回目のブログでは AWS IoT を使用して Donkey カーから AWS にテレメトリをストリーミングするプロセスをご紹介しました。 今回のブログでは、カーの運転を有効にするディープラーニングについて詳しく見ることにします。また、畳み込みニューラルネットワーク (CNN) を使用した行動クローニングの概念についても説明します。CNN は「前方には道がありますか、それともトラフィックコーンがありますか?」といったような、カーに対する質問に答えるなど、コンピュータビジョンタスクにおける最先端のモデリング技術として現れたものです。 1) AWS 自律走行車を構築し re:Invent の Robocar Rally でレースに参加 2) 自律走行車の構築 パート 2: 自律走行車の運転 3) 自律走行車の構築 パート 3: 自律走行車の接続 4) 自律走行車の構築 パート 4: 自動運転の車で Apache MXNet と行動クローニングを使用 P2 で Donkey のトレーニングデータをセットアップ トレーニングの実行方法の詳細については、すでにシリーズ 2 回目のブログで説明しました。主なステップとコマンドを簡単に復習しておきましょう。 Pi からデータを […]

Read More

Amazon Rekognition がリアルタイム顔認識、イメージ内のテキスト認識のサポート、および機能強化された顔検出を発表

Amazon Rekognition に、3 つの新しい機能として、イメージ内のテキストの検出と認識、数千万の顔からのリアルタイム顔認識、および密集写真からの最大 100 個の顔検出が追加されました。顔の検証と識別に Amazon Rekognition をすでにご利用の場合は、ほとんどのケースで精度が最大 10% 向上します。 イメージ内のテキスト Amazon Rekognition でイメージ内のオブジェクトや顔を検出しているお客様方から、イメージに埋め込まれたテキストを認識できないかとのご要望があります。たとえば、交通監視カメラで捉えた道路標識や車のナンバープレート、TV 画面のニュースや字幕、携帯に取り込まれた家族写真の図案化された文字などです。本日より、Rekognition の「イメージ内のテキスト」を使用して、イメージからテキストコンテンツを認識して抽出できるようになりました。「イメージ内のテキスト」は、ドキュメントのイメージよりも実際のイメージで特に効果を発揮するように構築されています。多種多様なレイアウト、フォント、スタイルで埋め込まれたほとんどのラテン文字や数字のテキストがサポートされます。また、バナーやポスターなどの背景のオブジェクトに様々な向きで重ねられたテキストもサポートされます。 「ビジュアル駆動型のプラットフォームである Pinterest では、イメージの速度と画質が極めて重要ですが、これらのイメージに付随するテキストも同じように重要です。テキストは、当社の 2 億を超えるアクティブユーザーに実際に Pin するための背景情報を提供します。Amazon Rekognition の『イメージ内のテキスト』を使うことで、大量のイメージに取り込まれたリッチテキストが抽出しやすくなり、Amazon S3 に保存された何百万という Pin のレイテンシーを低く抑えることができます。これからも AWS とのパートナーシップを深め、Pinner に高品質で高速なサービスを提供し、Pinterest のビジネスを成長させていくつもりです。」– Vanja Josifovski、CTO、Pinterest 「プロの写真家が SmugMug を使用して共有したり販売したりする写真に、マラソン大会のゼッケン番号などの数字が含まれていることがあります。Amazon Rekognition の『イメージ内のテキスト』を使用すると、大量のゼッケン番号をプログラムで抽出できるため、これらの大会で写真家が撮った写真をすばやく簡単に共有したり収益化したりできるようになります。」 – Don MacAskill、Co-founder、CEO & Chief Geek at SmugMug リアルタイムの顔認識 何千万という顔のコレクションに対してリアルタイムの顔検索ができるようになりました。これにより、検索のレイテンシーが以前よりも 5〜10 分の 1 に短縮されると共に、コレクションに保存できる顔の数が […]

Read More

Apache MXNet で ONNX をサポート

AWS は ONNX-MXNet の利用開始を発表しました。これは Open Neural Network Exchange (ONNX) ディープラーニングモデルを Apache MXNet にインポートするためのオープンソース Python パッケージです。MXNet は充実した機能を備えたスケーラブルなディープラーニングフレームワークで、Python、Scala、R といった人気の言語に対し API を提供します。MXNet で ONNX 形式をサポートすることで、開発者は PyTorch、Microsoft Cognitive Toolkit、Caffe2 など、他のフレームワークを使用してモデルを構築したりトレーニングすることができます。また、高度に最適化されたスケーラブルなエンジンの MXNet を使用した推論に対し、こうしたモデルを MXNet にインポートすることもできます。 AWS が ONNX 形式に貢献できることを大変喜ばしく思っています。Facebook、Microsoft、そしてディープラーニングコミュニティと協力し、ディープラーニングのユーザーが利用しやすい便利なものにすべく、ONNX の開発に取り組みます。 ONNX とは ONNX はディープラーニングモデルをエンコードするためのオープンソース形式です。ONNX はニューラルネットワークの計算グラフ、グラフ内で使用される演算子の広範なリストの形式を定義します。拡大中のフレームワークリスト、ハードウェアベンダー、ディープラーニングの開発を手掛ける開発者などにサポートされている ONNX は、容易にフレームワーク間を移動し、目の前の課題に最適なフレームワークを選別することができます。 クイックスタート 今回は ONNX-MXNet を使用して MXNet に ONNX-MXNet をインポートする方法、そして推論用にインポートしたモデルを使用する方法をご紹介します。これにより、MXNet の最適化した実行エンジンのメリットを活用することができます。 ステップ 1: インストール まず、ONNX […]

Read More

Amazon Polly が 9 つの対象 AWS リージョン、韓国語のサポート、新しいインド英語音声を追加

Amazon Polly は、テキストを生きた話し声に変換する AWS のサービスです。Amazon Polly に 9 つのリージョンが追加され、Polly が利用可能なリージョンの合計数が 14 となったことを発表いたします。さらに、韓国語サポートの開始、テキスト読み上げ機能ポートフォリオへのインド英語音声の追加を発表いたします。新しい韓国語の女性音声 Seoyeon、およびインド英語音声の Aditi をご紹介します。 Amazon Polly は、世界中のお客様に対して最大の安定性と最小のレイテンシーを提供するべく、以下の 14 の AWS リージョンで提供されます: アジアパシフィック (ムンバイ)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、南米 (サンパウロ)、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (北カリフォルニア)、および米国西部 (オレゴン)。 Amazon Polly は re:Invent 2016 で発表されて以来、最も多いリクエストの 1 つとして、追加言語のサポートがありました。お客様からの最も多くのリクエストがあった言語の 1 つが韓国語です。お客様の需要にお応えして、最初の韓国語音声 Seoyeon を発表いたします。

Read More