Amazon Web Services ブログ

Category: Artificial Intelligence*

AWS DeepLens の拡張機能: 独自のプロジェクトの構築

AWS DeepLens では、ディープラーニング、Internet of Things (IoT) などの新しいテクノロジーを知ることができるだけでなく、現実的な問題を解決する革新的なシステムを構築することができます。このデバイスおよびサービスには、定義済みのプロジェクトセットが付属しており、プロジェクトをすばやく実行することができます。また、開発者が初心者か経験豊富かに関係なく、同様にエキサイティングなプロジェクトを新しく構築 (および共有) できるようにするオープンプラットフォームとして設計されています。 このブログ投稿では、独自のプロジェクトを構築するプロセスについて説明します。以下に一部のステップを紹介します。 ディープラーニングモデルのトレーニング (Amazon SageMaker を使用) AWS DeepLens エッジデバイス上で実行できるように、トレーニング済みのモデルを最適化する モデルをロードし、ビデオストリーム上で推論を実行できるように、AWS Lambda 関数を開発する AWS Greengrass を使用して AWS Lambda 関数を AWS DeepLens にデプロイする コマンドを送信し、推論を出力できるように、エッジ AWS Lambda 関数をクラウドに接続する 完成 ディープラーニングモデルのトレーニング (Amazon SageMaker を使用) Amazon SageMaker は、データサイエンスで手間のかかる作業を排除する新しいサービスです。このサービスには、推奨のエンジンから Alexa や Amazon Go、Amazon Robotics などの機械学習に基づくシステムまで、Amazon.com のビジネスのさまざまな側面で、Amazon データサイエンティストの長年の経験が反映されています。 優れた機械学習モデルを設計、構築する全体のプロセスは非常に興味深いですが、今回のブログ投稿では割愛します。実際、DeepLens デバイスにディープラーニングモデルをデプロイして再接続し、その出力を活用するフローで生産性を高めれば、現実の新しい問題を解決するために新たなモデルの構築にますます多くの時間を費やすことになります。 機械学習の初心者が、データサイエンティストのエキスパートと同じ開始ポイントに立つには、Amazon SageMaker でノートブックインスタンスを作成する際に利用できる Jupyter […]

Read More

Whooshkaa と Amazon Polly: 視覚と聴覚を組み合わせてパブリッシングの世界を広げる

これは、Robert Loewenthal 氏 (Whooshkaa 社 CEO 兼創立者) のゲストブログ投稿です。 Whooshkaa は、オーストラリアを本拠地とするクリエイティブなオーディオオンデマンドのポッドキャストプラットフォームであり、パブリッシャーや広告主によるオーディエンス到達範囲の拡大を支援しています。当社は、常に新しい製品と手法を試しており、これらを組み合わせてお客様のための新しいソリューションを生み出しています。 Amazon Polly のテキスト読み上げ (TTS) 機能が好例です。当社のお客様の中には、すでに Amazon Polly を使用して既存の配信方法を拡張している大手のパブリッシャー、スポーツ団体、オーストラリア最大の通信会社があります。 これらの従来の情報プロバイダーは、今日の購読者が目だけでなく、耳を通した情報の取得に関心がある点に注目しています。Whooshkaa では、Amazon Polly TTS を使用することで、情報プロバイダーが 48 種類の音声と 24 言語で購読者に情報を提供できます。 今年初めに、オーストラリアを代表する全国紙 The Australian に Amazon Polly が導入されました。購読者は、運転やエクササイズなどで手や目を放せないときに Amazon Polly が読み上げる新聞の記事、レシピ、スポーツの試合結果などを聴くことができます。 Whooshkaa では、Amazon Polly を使用することで、特定のパートナーは選択した任意の新聞記事を数秒以内にポッドキャストエピソードに変換できます。当社が提供するツールでは、複数の記事をマージし、音声をカスタマイズしてアクセント、ピッチ、速度、音量を変更することもできます Whooshkaa の配信ネットワークは多様であり、ユーザーは様々な手段から選んでコンテンツを再生できます。代表的な手段はお気に入りのポッドキャストアプリを使うことです。Whooshkaa は Facebook と独自の提携をしているため、ポッドキャストエピソードをネイティブのオーディオプレイヤーで再生できます。当社のカスタマイズ可能なウェブプレイヤーは Twitter でもサポートされています。ただし、任意のウェブサイトに埋め込むことができます。 このテクノロジーが充実すれば、世界の地域と言語を問わず、パブリッシャーは新聞記事を自由に提供できるようになります。新聞記事は、読者の設定とニーズに応じてカスタマイズすることもできます。 当社はまた、オーストラリア最大の通信会社 Telstra およびナショナルラグビーリーグと提携し、接続されたスマートスピーカーを通じてユーザーのお気に入りのチームの試合結果をライブ配信しています。ユーザーがデバイスに尋ねるだけで、最新の結果が即座に読み上げられます。 当社の開発者 Christian Carlsson […]

Read More

AWS DeepLens プロジェクトの出力をラップトップでカスタマイズして表示する

AWS DeepLens は、ディープラーニング対応の開発者ツールキットを搭載したビデオカメラです。コンピュータビジョンのハンズオンチュートリアル、事前構築されたモデルを使用して Machine Learning スキルを開発し、拡張することができます。事前構築されたモデルの例としては、TV モニター、人物、ボトルなど室内の様々な物体を認識および検出するための物体検出、さらに歯磨きをする、口紅を塗る、ドラムを打つ、バイオリンを弾く、バスケットボールをするなどの様々な動作を認識するための動作認識が挙げられます。 AWS DeepLens では、デバイスのカメラからのストリームと、IoT コンソールおよびローカルデバイスからのモデルの出力を表示できます。各方法の詳細については、関連ドキュメントを参照してください。このブログでは、AWS DeepLens からのプロジェクト出力をカスタマイズして HTML ページに表示する方法について説明します。 以下のサービスを使用します。 Amazon Cognito: IoT WebSockets を介して HTML ページから AWS DeepLens MQTT メッセージにアクセスできるようにします。 AWS IoT: データのサブスクリプションと発行を処理します。 Amazon S3: 出力表示用の HTML ファイルを保存します。 AWS CLI または AWS マネジメントコンソールを使用して AWS DeepLens のプロジェクト出力をカスタマイズできます。CLI およびコンソールの使用手順について以下に詳しく説明します。 前提条件 手順に従って AWS DeepLens をカスタマイズする前に、以下の準備が必要です。 AWS DeepLens デバイスを所有する デバイスを登録する プロジェクトを作成してデバイスにデプロイする 詳細については、関連ドキュメントを参照してください。AWS […]

Read More

AWS DeepLens を拡張し AWS Lambda で SMS 通知を送信

AWS DeepLens は、ディープラーニング対応の開発者ツールキットを搭載したビデオカメラです。コンピュータビジョンのハンズオンチュートリアル、事前構築されたモデルを使用して Machine Learning スキルを開発し、拡張することができます。 このブログでは、AWS IoT ルールエンジンと Lambda 関数を使用し、クラウド機能で DeepLens のローカルな機能を拡張する方法について説明します。このシンプルな機能は、たとえば DeepLens デバイスでホットドッグを見た後に、あなたの電話番号に SMS 通知を送信することができます。Amazon Elasticsearch Service (タイムラインやフレームで検出されたすべてのオブジェクトや顔を対象にするダッシュボードや検索インターフェイスの構築)、Amazon Kinesis Analytics (店の前を通り過ぎる人数の異常検出モデルの構築)、Amazon Rekognition (有名人の認識や顔検出の API を使用して近辺にいる VIP を識別) や、その他の AWS クラウドサービスでこの機能を拡張するために上級ユーザーが今後この機能を利用していくだろうと我々は予測しています。 次の図はカメラの前のオブジェクトからポケットの中にあるモバイルデバイスまでに渡るシステム内のデータフローを示しています。 Lambda 関数の作成 まず、クラウドで実行が可能で DeepLens デバイスからのホットドッグの確率が高い (>0.5) メッセージをフィルターできる AWS Lambda 関数を作成します。このプロセス中に、AWS Greengrass を使用するデバイスでデプロイした Lambda 関数からメッセージを取得できるように、AWS IoT ルールエンジンでルールを作成します。 AWS Lambda コンソールで [Create Function] にアクセスします。 […]

Read More

Amazon Comprehend – 継続的に学習される自然言語処理

数年前、私はメリーランド大学の図書館 をさまよい、What Computers Can’t Do というタイトルのホコリをかぶった古い本と、その続編 What Computers Still Can’t Do を見つけました。2冊めの本はより分厚く、コンピューター・サイエンスが学ぶべき価値ある領域であることを認識させる内容でした。このブログを書く準備をしている間に、私は最初の1冊の保存されたコピーを見つけ、面白い考えを見つけました。 人間は自然言語で記述された文脈依存する暗黙的な知識を必要とする文章を使い、理解しているので、同じように自然言語を理解し、翻訳できるコンピューターを作る唯一の方法は、チューリングが嫌疑していたように、多分コンピューターが世界について学ぶようにプログラムすることだろう。 これは、とても先見の明のある考えでした。そして、私は Amazon Comprehend についてお話したいと考えています。Amazon Comprehend は現実に世界のことを相当詳しく知っている新しいサービスで、そのことを共有できるのがとても幸せです。 Amazon Comprehend の紹介 Amazon Comprehend はテキストを分析し、最初にアフリカ語からヨルバ語まで、その間にある 98 以上の言語に始まり、見つけたことを教えてくれます。Amazon Comprehend は英語かスペイン語で記述されたテキストからエンティティ(人、場所、ブランド、製品、など)の違い、キーフレーズや感情(ポジティブ、ネガティブ、混合、中立)を識別し、キーフレーズやその他全ての情報を抽出することができます。最後に、Comprehend のトピックモデリングサービスが巨大なドキュメントセットの中から分析やトピックに基づくグルーピングのために複数のトピックを抽出します。

Read More

Amazon Translateのご紹介- リアルタイム言語翻訳

インターネットの登場により、世界はより小さくなりました。大規模な情報の保管が可能になり、まばたきをする間に文化や国をまたいで転送が可能になり、お互いを学び成長する機会を提供してくれます。知識とデータ転送の高速艇の利点を享受するためには、最初に情報の共有とコミュニケーションを妨げる言語の壁を打ち破る必要があります。 マルチリンガルになる以外で、これらの障壁を突破する方法の一つは、言語感間の機械翻訳とそれに関連するテクノロジーの活用です。機械翻訳技術は、ソフトフェアを使ってテキストあるいはスピーチをある言語から他の言語へ翻訳することにフォーカスする計算機言語学の分野から生まれました。機械翻訳のコンセプトは、1949年にアメリカの科学者かつ数学者であるWarren Weaverが、ロックフェラー財団の自然科学部門の同僚からのリクエストによって、彼の言語翻訳アイデアを共有するためのMemorandum on Translationを作成した時点まで遡ります。それ以来、翻訳モデルの有効性とクォリティを向上させるためにニューラルネットを利用した機械言語翻訳の分野は長い道のりを辿りました。ですので、この分野の技術的な進歩によって今日ご紹介するエキサイティングな新しいサービスをご提供できることに驚きが無いかもしれません。 Let’s Welcome: Amazon Translate Amazon Web ServiceファミリーにAmazon Translateが加わることを喜びましょう。Amazon Translateはテキストベースのコンテンツに対して高速な翻訳先進的な機械学習のテクノロジーを利用した高品質なニューラル機械翻訳サービスで、多言語なユーザーエクスペリエンスを提供するアプリケーションの開発を可能にします。このサービスは現在プリビュー期間中で、サポートする言語から英語、英語からサポートする言語へのテキスト翻訳が可能です。 Amazon Translateを利用することにより、ウェブサイトや情報、リソースにアクセスする消費者が自動的な翻訳を使って、好みの言語でアクセスできるようになり、組織やビジネスは製品やサービスを拡張し、他のリージョンへより容易に展開できるようになります。加えて、読めない言語でリソースが提供されていたとしても、マルチプレイヤーチャットでエンゲージしたり、消費者フォーラムから情報を収集したり、教育資料を深読みしたり、ホテルのレビューを取得したりすることが出来ます。

Read More

Amazon Transcribe – スケーラブルで正確なSpeech to Text

11月29日、開発者がアプリケーションにSpeech to Textの機能を簡単に追加できる自動音声認識(ASR)サービスのAmazon TranscribeのPrivate Previewを発表致します。帯域や接続性の改善に伴い、世界中のより多くのデータが、ビデオやオーディオのフォーマットで保管されるようになってきました。人々は以前よりも早くデータを生成し、消費するようになりました。これらのリッチなマルチメディアコンテンツに存在する何らかの意図を価値として取り出すことは、ビジネスに非常に重要になっています。Amazon Transcribeを利用すれば、効果的でスケーラブルなAPIを利用して、手動での書き起こしプロセスに掛かるコストを抑えることが可能です。   APIでジョブを開始すれば、Amazon Simple Storage Service (S3) に保管された多数の一般的なフォーマットの音声ファイル(WAV, MP3, Flac, etc.)を分析でき、各単語毎のタイムスタンプと推測された区切り情報を持つ、詳細かつ正確な書き起こし結果を得られます。Preview期間中は、英語またはスペイン語を書き起こすための非同期Transcription APIをご利用可能です。

Read More

Amazon SageMaker – 機械学習を加速する

機械学習は多くのスタートアップやエンタープライズにとって重要な技術です。数十年に渡る投資と改善にも関わらず、機械学習モデルの開発、学習、そして、メンテナンスはいまだに扱いにくく、アドホックなままになっています。機械学習をアプリケーションに組み込むプロセスはしばしば一貫しない仕組みで数ヶ月間に及ぶエキスパートチームによるチューニングと修正を伴います。企業と開発者は機械学習に対する生産パイプラインに対するのエンド・エンドな製品を望んでいます。   Amazon SageMaker の紹介   Amazon SageMaker はフルマネージドなエンド・エンド機械学習サービスで、データサイエンティストや開発者、機械学習のエキスパートがクイックに機械学習モデルをスケーラブルにビルド・学習・ホストすることを可能とします。このサービスが機械学習に関する全ての試みを急激に加速し、プロダクションアプリケーションに素早く機械学習を追加可能とします。 Amazon SageMaker には3つの主要なコンポーネントが存在します: オーサリング:データに関する調査・クレンジング・前処理に対してセットアップ無しで利用可能な Jupyter notebook IDE をCPUベースのインスタンスやGPUを利用可能なインスタンスで実行することが可能です。 モデルトレーニング:モデルトレーニングは分散モデル構築/学習/評価サービスです。ビルトインされた共通の教師あり/教師なし学習アルゴリズムやフレームワークの利用や Docker コンテナによる独自の学習環境を作ることも可能です。学習では、より高速なモデル構築を可能とするため、数十のインスタンスにスケールすることが可能です。学習データは S3 から読み出され、モデルアーティファクト が S3 に保存されます。モデルアーティファクトはデータと分離されたモデルのパラメータであり、モデルを使って推論を可能とするような実行コードではありません。この分離により、IoT デバイスのような他のプラットフォームに SageMaker で学習したモデルをデプロイすることが容易になります。 モデルホスティング:モデルをホストするサービスで、リアルタイムに推論結果を取得するためにモデルを呼び出す HTTPS エンドポイントを提供します。エンドポイントはトラフィックに対処するためにスケールすることができ、同時に複数モデルで A/B テストすることを可能とします。加えて, ビルトインの SDK を利用してエンドポイントを構築できるだけでなく、カスタム設定で Docker イメージを利用することができます。 これらコンポーネントはそれぞれ分離して利用することができ、分離されていることが、存在するパイプラインのギャップを埋めるために Amazon SageMaker を採用することを本当に簡単にしています。故、エンド・エンドにサービスを使用するときに有効になる、本当に強力な事象がいくつも存在します。

Read More

Amazon Rekognition Video: ディープラーニングベースのビデオ認識

  Amazon Rekognitionを発表したのは昨年のre:Invent 2016期間中でした。手を汚してコードを書き、サービスを活用して画像認識ソリューションを構築するのにとても興奮しました。ご存知かもしれませんが、Amazon Rekognition Imageは、ディープラーニングを利用してスケーラブルな画像認識と分析を提供するクラウドサービスです。Rekognitionを利用して、オブジェクトとシーンの検出、リアルタイム顔認識、セレブリティ認識、節度の認識だけではなく、テキスト認識をアプリケーションやシステム統合して構築することができます。 Amazon Rekognition Imageサービスは、深層ニューラルネットワークモデルを利用して作成されており、Prime Photosで毎日数億の画像分析を可能にしているのと同じテクノロジーに基づいています。これまで、Rekognitionはスケーラビリティ、自動的な分析、サーチ、画像の分類を提供することに重点的にフォーカスしてリリースされてきました。今その全てが変わっています。今回、このサービスの幾つかの追加機能についてお伝えできることを嬉しく思います。

Read More

Amazon EMR での Apache MXNet および Apache Spark を使用した分散推論

このブログでは、Amazon EMR で Apache MXNet (incubating) および Apache Spark を使用して大規模なデータセットで分散オフライン推論を実行する方法を説明します。オフライン推論がどのように役立つのか、課題となる理由、および、Amazon EMR で MXNet と Spark を活用して課題を解決する方法を説明します。 大規模データセットでの分散推論 – ニーズと課題 ディープラーニングモデルのトレーニングの後、新しいデータ上で推論を実行して活用します。推論は、不正検出など、その場でのフィードバックが必要なタスクでリアルタイムに実行できます。これは通常オンライン推論と呼ばれています。または、事前計算が役立つ場合は、推論をオフラインで実行できます。オフライン推論のよくあるユースケースは、ユーザーの製品スコアのソートやランク付けを必要とする推奨システムなど、レイテンシー要件が低いサービスです。これらのケースでは、推奨はオフライン推論を使用して事前計算されます。結果は低レイテンシーストレージに保存され、必要に応じて、推奨がストレージから引き出されます。オフライン推論の別のユースケースは、最新モデルから生成された予測による履歴データのバックフィリングです。仮の例として、新聞でこの設定を使用して、人物識別モデルから予測された人物の名前でアーカイブされた写真をバックフィルできます。また、分散推論を使用して、歴史的なデータで新しいモデルをテストし、本番稼働用にデプロイする前により良い結果を生み出すかどうかを確認できます。 通常、分散推論は数百万以上のレコードがあるような大規模なデータセットで実行されます。妥当な時間内にそのような巨大なデータセットを処理するには、ディープラーニングの機能をセットアップされたマシンクラスターが必要です。分散クラスターでは、データ分割、バッチ処理、タスクの並列化を使用した高いスループット処理ができます。ただし、ディープラーニングデータ処理クラスターをセットアップするには課題もあります。 クラスターのセットアップと管理: ノードのセットアップとモニタリング、高い可用性の維持、ソフトウェアパッケージのデプロイと設定など。 リソースとジョブの管理: ジョブのスケジューリングと追跡、データ分割とジョブの障害への対処。 ディープラーニングのセットアップ: ディープラーニングタスクのデプロイ、設定、および実行。 次に、このブログの投稿では、Amazon EMR で MXNet および Spark を使用してこれらの課題に対処する方法を示します。

Read More