Amazon Web Services ブログ

AWS サービスを使用した独自のリアルタイム音声翻訳アプリケーションの構築

ある言語で何かを言うと、ツールが即時にそれを他の言語に翻訳することを想像してみてください。AWS のサービスを使って独自のリアルタイム音声翻訳アプリケーションを構築できればますます素晴らしいと思いませんか? そのアプリケーションは銀河ヒッチハイク・ガイドに登場するバベルフィッシュに匹敵するものになるでしょう。 「小さくて黄色の、蛭みたいな恰好で、これは宇宙で最も奇怪な道具だけど、このバベルフィッシュを耳に装うだけで世界中のどんな言葉も聞き取ることができる」 ダグラス・アダムス、銀河ヒッチハイク・ガイド この記事では、AWS の複数のサービスを接続して、バベルフィッシュのように機能する独自のアプリケーションを構築する方法をご紹介します。 このブログ記事について 読む時間 15 分 完了するまでの時間 30 分 完了するためのコスト 1 USD 未満 学習レベル 中級 (200) AWS のサービス Amazon Polly、Amazon Transcribe、Amazon Translate、AWS Lambda、Amazon CloudFront、Amazon S3 概要 このアプリケーションの中核は、以下の AI 言語サービスをつなげる AWS Lambda 関数で構成されています。 Amazon Transcribe – 完全マネージド型で継続的に訓練されるこの自動音声認識 (ASR) サービスは、音声を取り込み、正確なトランスクリプトを自動で生成します。Amazon Transcribe はリアルタイムの文字起こしをサポートし、これはほぼリアルタイムでの変換の実現に役立ちます。 Amazon Translate – このニューラル機械翻訳サービスは、高速、高品質、かつ低価格の言語翻訳を提供します。 Amazon Polly – このテキスト読み上げサービスは、人の声のように聞こえる音声を合成するために、高度な深層学習テクノロジーを使用します。 以下のイラストは、これら 3 […]

Read More

Apache Spark を実行しているAmazon Kinesis Data Firehose と Amazon EMR によるダウンストリームデータ処理の最適化

増え続けるデータを処理し、新しいデータソースを取り込むことは、多くの組織にとって大きな課題となっています。  多くの場合、AWS のお客様は接続中のさまざまなデバイスやセンサーからメッセージを受け取っていますが、それらを詳しく分析する前に、効率的に取り込み、処理する必要があります。  結果として、あらゆる種類のデータが行き着くソリューションが Amazon S3 となるのは当然と言えるでしょう。  ただし、データが Amazon S3 に格納される方法によって、ダウンストリームデータ処理の効率とコストに大きな違いが生じる可能性があります。  具体的に言うと、Apache Spark では少数の大きなファイルを処理する場合に比べて、小さいファイルを数多く処理すると、ファイル操作に負担がかかります。  これらのファイルにはそれぞれ、メタデータ情報のオープン、読み込み、クローズの処理に数ミリ秒のオーバーヘッドがあります。これらのファイルを数多くファイル操作すると、このオーバーヘッドのために処理が遅くなります。このブログ投稿では、Amazon Kinesis Data Firehose を使用して、Amazon S3 に配信する多数の小さいメッセージを大きいメッセージにマージする方法を説明しています。  この結果、Spark を実行している Amazon EMR の処理が高速化します。 Amazon Kinesis Data Streams と同様、Kinesis Data Firehose は最大で 1 MB のメッセージサイズを受信できます。  単一のメッセージが 1 MB を超える場合は、ストリームに配置する前に圧縮できます。  ただし量が多い場合、メッセージのファイルサイズが 1 MB 以下だと通常小さすぎます。  正しいファイルサイズというものはありませんが、多くのデータセットでは 1 MB を指定するとファイルの数とファイル操作が多すぎることになるでしょう。 この投稿では、Amazon S3 にある Apache Spark を使用して、圧縮ファイルを読み込む方法についても説明します。この圧縮ファイルには適切なファイル名拡張子がなく、parquet […]

Read More

Amazon Personalize の一般提供開始と東京リージョンラウンチのおしらせ

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、 プロダクトマーケティング エバンジェリストの亀田です。   いよいよ、AWS Summit Tokyo 2019が始まりました。現在初日基調講演中です。現地にいらっしゃらない方でも こちらのLive Streamからご登録いただきライブ配信を視聴できます。 re:Invent 2018で発表された、 機械学習の知識不要で、アプリケーションを使用している顧客に対して開発者が個別のレコメンデーションを簡単に作成できる、Amazon Personalizeが一般提供開始となり、東京リージョンでもご利用いただけるようになりました。 Amazon.com で使用されているのと同じテクノロジーに基づく、リアルタイムのパーソナライズおよびレコメンデーション機能が利用できます。アプリケーションからのアクティビティストリーム (ページビュー、サインアップ、購入など) と、記事、製品、動画、音楽など、レコメンドするアイテムのインベントリが提供され、年齢や地理的位置など、ユーザーに関する追加の人口統計情報とのマトリックスでレコメンドを作成することができます。   Personalizeは大きく3種類のデータを取り込み動作します。 ユーザーアクティビティストリームまたはイベントデータ – ウェブサイト/アプリケーションでのユーザーインタラクションデータはイベントの形式で取り込まれ、多くの場合 1 行のコードを含む統合を介して Amazon Personalize に送信されます。これには、クリック、購入、ショッピングカートへの追加、コメント、「いいね」などの重要なイベントが含まれます。サービスにオンボーディングする場合、開発者は、利用可能であれば、すべてのイベント/アクティビティストリームデータの履歴ログを提供することもできます。 カタログデータ – これは、本、動画、ニュース記事、製品など、あらゆるタイプのカタログにすることができます。これには、アイテム ID と各アイテムに関連付けられたメタデータが含まれます。このデータはオプションです。 ユーザーデータ – 性別や年齢などのユーザーの人口統計データを含むユーザープロファイルデータ。このデータはオプションです。 getRecommendations と getRerankedResults という二つの推論APIが提供され、上記のデータをもとに推論が実行されます。 料金は、こちらです。2か月間も無料利用枠が設定されていますので、是非お試しください。 ハンズオンイベントのお知らせ Amazon Personalize ハンズオンセミナー 2019 年 7 月 11 日(木) 開場: 12:30  開演: 13:00 ~17:00 […]

Read More

【アップデート】AWS DeepLens が国内で予約注文できるようになりました

2017 年の AWS re:Invent で、私たちは世界初の機械学習 (ML) 対応ビデオカメラ、AWS DeepLens を発表しました。開発者はプログラム可能なビデオカメラ、チュートリアル、コード、および ML スキルを拡張させるよう設計された事前トレーニング済みのモデルを使って ML を利用できます。AWS DeepLens を使用すると、コンピュータサイエンスや数学の博士号がなくても効果の高い ML プロジェクトを作成できます。ある程度の開発経験がある人なら誰でも使い始めることができます。 次のウェブサイトで、カナダ、欧州、日本の開発者が AWS DeepLens (2019 年版) を予約注文できるようになりました。 Amazon.ca Amazon.de Amazon.es Amazon.fr Amazon.it Amazon.co.jp Amazon.co.uk お客様の体験をさらに向上させるために、一世代前のデバイスから次の点を強化します。 すぐに ML を始められるようオンボーディングプロセスを最適化 Intel RealSense 深度センサーのサポートし、より高精度で高度な ML モデルを構築可能 2-D 画像入力に加えて深度データを使用可能 外部の Intel アクセラレータを使用して追加の AI パフォーマンスを達成したい人向けの Intel Movidius Neural Compute Stick をサポート 2019 年版は、Amazon SageMaker […]

Read More

思い出をとらえる: GeoSnapShot が、Amazon Rekognition を使用してアスリートを識別

スポーツイベントに出場し、後で自分で見つけるためにイベントの写真を念入りに調べたことがある方なら、GeoSnapShot による Amazon Rekognition を搭載した革新的なソリューションに感謝するでしょう。 GeoSnapShot の創業者である Andy Edwards 氏は、ハイレベルの乗馬の選手である妻と乗馬イベントに同行し、妻や妻の友人を撮影することからスポーツ写真の世界に入りました。全員の素晴らしい写真を撮ることは楽しかったのですが、全員を識別し、それぞれの人に写真を配布するのに必要だった手作業で時間がかかるプロセスには失望していました。彼は他の多くの写真家が同じ状況であることに気づきました。悲しいことに、単に選別プロセスが難しかったために、彼らが捉えた特別な思い出が失われていたのです。 実際に、世界中の写真家やスポーツ組織の多くが関連するこの課題を解決しようと決意して、Andy は 2013 年に GeoSnapShot を設立しました。同社はイベント主催者と提携し、自撮りした写真を選択してアップロードするすべてのアスリートが自分の画像をすばやく簡単に見つけることができるようにします。これは、Amazon Rekognition を使用して、2 つの方法で行われます。利用者の自撮り写真とイベントの写真の直接比較と、競技のゼッケン番号を識別する光学式文字認識を行います。GeoSnapShot は、こうした入力を使用して、数千枚ものイベント写真をほぼリアルタイムで処理できるため、イベント主催者が何時間も費やす必要があった、ゼッケン番号と選手名を手作業で一致させたり、選手ごとに写真を分類したりする作業をスピードアップできます。 この困難な作業のため、今までは、選手たちが写真を利用できるようになるまで数日から数週間待つ必要がありました。現在は、GeoSnapShot のスポーツ写真撮影のためのユニークなソリューションのおかげで、選手は汗が乾く前に自分の写真を確認できるようになりました。その結果、イベント主催者向けの写真販売はほぼ 30% 増加し、顧客満足度は大幅に向上しました。 GeoSnapShots のソリューションは 92 カ国で使用されており、アマチュア写真家も専門家も同様に、AWS 上に構築されたこのユーザーフレンドリーなソリューションを賞賛しています。おそらく、この技術の力の真の証明は、人気のある世界的な持久力イベント会社の Tough Mudder が最近 GeoSnapShot を使い始めたという事実でしょう。Tough Mudder の参加者は、その競争の特徴として頭からつま先まで泥まみれになるためにほとんど認識できないことが多いですが、それでも GeoSnapShot の利用者の識別は成功しています。(もちろん、競技参加者はわざわざ泥で覆われた自撮り写真をアップロードする必要はありません。 より魅力的な写真でもうまく機能します。) Tough Mudder のライブイベント担当副社長である Johnny Little 氏は、「行った思い出を追体験することは参加者にとってとても重要です。GeoSnapShot は、世界中のあらゆる Tough Mudder のイベントに最適なソリューションを提供しています」と述べています。 Andy は、同社のソリューションの基盤として AWS AI を賞賛します。「AWS は、私たちが事業の構築を始めたときに最も柔軟性の高いテクノロジープラットフォームを提供してくれました。GeoSnapShot […]

Read More

Gluon Time Series でニューラル時系列モデルを作る

オープンソース版 Gluon Time Series (GluonTS) の一般公開したことを喜んでお知らせいたします。これは、Amazon の研究者達が、深層学習をベースにした時系列モデルの構築、評価、比較のために開発した、Python のツールキットです。GluonTS は、Apache MXNet のための Gluon インターフェースをベースにしており、時系列モデルの構築を、シンプルかつ効率的にするコンポーネントを提供します。 今回のブログでは、このツールキットの主要な機能を解説すると共に、GluonTS を時系列予測問題に応用する方法も示します。 時系列モデルのユースケース その名前が示すとおり、時系列モデルとは時刻でインデクスされたデータポイントの集合のことです。多くの多様なアプリケーションにおいて、時系列は自然と生み出されています。典型的なものとしては、基本プロセスから生じるデータを、固定的な時間間隔で測定する場合があります。 例えば、毎営業日の終わりに、小売業者は各製品が単体でいくつ売れたか計算し、記録しておくでしょう。これは、各製品の日々の販売数についての時系列データとなります。電力会社の場合なら、1時間毎など固定的な時間間隔で、各家庭が消費する電力量を測定するでしょう。これは、電力消費に関する時系列データを集めることになります。AWS のお客様であれば、ご使用のリソースやサービスに関係する複数のメトリクスを、Amazon CloudWatch を使い記録するでしょう。それは、メトリクスの時系列を集めることになります。 一般的な時系列は、次に示すように、測定された値を縦軸の目盛りに、時刻を横軸に取る形式となります。 時系列データが入手できたら、それについていくつかの論点を考えることができます。 その時系列は将来どう変わってゆくか? 予測 特定時刻における時系列の動きに変則性があるか? 異常検出 与えられた時系列はどのグループに分類されるか? 時系列の分類 いくつか欠測値があった場合、その値は何であったか? 補完 GluonTS では、時系列モデルの構築を簡素化しているので、前出のような問題に対処することが容易になります。モデルとは、時系列の基礎に存在するプロセスを数学的に記述したものです。これまで、多数の時系列モデルが提案されてきていますが、GluonTS では、これらのテクニックの中でも、機械学習を応用した特定のサブセットにフォーカスしています。 GluonTS の主要機能とコンポーネント GluonTS では、深層学習ベースの時系列モデル構築を簡素かつ効率的に行える、多数のコンポーネントが用意されています。これらのモデルには、自然言語処理や画像処理など他の領域で使われるものと同じ、多くの構成ブロックがモデルとして利用されています。 時系列モデルを処理する深層学習モデルには、Long Short-Term Memory (LSTM) セルを基本とした再帰型ニューラルネットワークや、コンボリュージョン、アテンション機構などのコンポーネントが一般的に含まれますそのため、Apache MXNet などのモダンな深層学習フレームワークが、モデルの開発と実験をするための便利な基盤として使えるようになっています。 しかし、時系列モデリングには、その応用領域に特化したコンポーネントも、しばしば必要とされます。GluonTS では、そういった時系列モデリングに独特なコンポーネントを、MXNet のための Gluon インターフェース上で提供します。GluonTS が持つ特徴としては以下が挙げられます、 新規モデル構築のための高レベルなコンポーネント。Sequence to Sequence モデルなどの一般的なニューラルネットワーク構造、モデリングや変動確率分布のためのコンポーネントを含みます […]

Read More

Amazon Aurora PostgreSQL でのクエリ計画管理のユースケース

このブログの投稿は一連の投稿の 2 回目です。前回のブログ記事では、SQL ステートメントの実行計画に回帰を引き起こす可能性があるその他の変更の中で、安定かつ一貫したデータベースパフォーマンスの必要性について説明しました。また、PostgreSQL と互換性のある Amazon Aurora のクエリ計画管理 (QPM) が、計画安定性と計画適応性の問題を克服できるようにする方法も述べています。 この記事では、引き続き Aurora PostgreSQL QPM の機能について説明します。特に、これらの機能によって、さまざまな高度なユースケースに対して計画安定性と適応性を実現する方法についてお話します。 ユースケース #1: QPM 手動取得による計画安定性と適応性の支援 最初のユースケースでは、QPM が計画安定性を確保する方法について例を挙げて説明します。次に、前回の記事 Aurora PostgreSQL クエリ計画管理の概要で説明した変更を行います。QPM を使用しない場合は、これらの変更により計画の回帰が生じる可能性があります。 ほとんどの場合、自動計画取り込みを使用するように QPM を設定して、2 回以上実行されるすべてのステートメントを取得することもできます。ただし、手動で指定した特定のステートメントセットの計画を取得することもできます。そのためには、デフォルトに capture_plan_baselines = off を設定します。セッションレベルでは、capture_plan_baselines = manual を設定します。設定の仕方については後で説明します。 手動計画取り込みを有効にして、目的の SQL ステートメントの実行計画を手動で取得するように QPM に指示します。 pg105db=> SET apg_plan_mgmt.capture_plan_baselines = manual; SET QPM がクエリ計画を取得できるように、クエリ説明計画を実行します (説明計画の以下の出力は、簡潔にするために省略されています)。 pg105db=> explain (hashes true) SELECT […]

Read More

Bewgle が AWS を原動力にして、非構造化テキストをインサイトに変える

SAP.iO および Techstars の資金提供を受ける企業である Bewgleは、AWS のサービスを使用してユーザー側で生成されたテキストや音声ストリームからインサイトを浮上させます。同社はインサイトの生成により、美容器具や電子機器といったさまざまな製品において、顧客満足度やエンゲージメントの向上を目指すプロダクトマネージャーのサポートを行っています。  AWS の技術を原動力とする Bewgle の支援を受けて顧客の声に耳を傾けると、プロダクトマネージャーは製品の売り上げの増大が実現できるようになります。 平均的な人間が 1 分間に読める文字数は約 250 字にすぎません。そのため、1000 件のカスタマーレビューをまとめるには、8 時間あまりかかってしまいます。すると、こうしたレビューすべてに加え、フォーラム投稿やブログ投稿のようなその他のテキスト、そしてアンケート結果の逐語的記録や音声ストリームを分析することなど実行できるはずがありません。 AI、特に natural language processing (NLP) と呼ばれる機械学習 (ML) が優れているのはまさにこの分野です。Bewgle の中心的なソリューションは AWS 上ですべてが開発された AI プラットフォームで、数百万規模のコンテンツを分析し、キートピックおよびその背後に潜む感情を抽出します。Amazon Machine Learning および AWS テックスタック全体では、通常なら数年かかる作業をわずか数分で完了できます。 Bewgle のソリューションはまさに、幅広い AWS のサービスを活用しているのです。Bewgle のデータ処理パイプラインが依存する AWS Lambdaおよび Amazon DynamoDB は以下の ML タスクのコアを形成します。 大規模な分析データを保存する。 データのクリーンアップする。 さまざまな処理機能をダイナミックに活用して分析を生成する。 チームは、システムのスケーリング、大まかに結合されたさまざまなワークフローを組織するために、革新的でサーバーレスな ML ワークフローを開発しました。チームはこれにより、さまざまなアプローチを評価、選択するにあたって驚異的な俊敏性および柔軟性を得て、スピーディーなイノベーションを推進することが可能になりました。 Bewgle のワークフローは通常、大規模かつオンデマンドのデータの収集、タグ付けを行うAmazon […]

Read More

AWS DMS タスク ID を使用して DMS タスクログをダウンロードするための Python コード

AWS Database Migration Service (AWS DMS) を使用すると、データベースを迅速かつ安全に AWS に移行できます。この記事では、AWS DMS タスク ID を使用して AWS DMS タスクログをローカルコンピュータにダウンロードするために必要なサンプル Python コードについて説明します。 概要 DMS タスクログには、移行プロセス中に記録されたタスク情報が含まれています。記事「AWS DMS 移行のデバッグ: 問題が発生した場合の対処方法 (パート1)」で示唆されているように、AWS DMS を使用してデータを移行する際、これらのログを使用して問題を解決することができます。 この記事では、DMS は Amazon CloudWatch Logs のログストリームにタスクログを送信するので、DMS 移行タスクに関する情報を取得できます。けれども、トラブルシューティングをスピードアップするためにローカルにログをダウンロードしたい場合はどうすればよいでしょうか? Download DM Task ログの GitHub レポジトリで、DMS タスク ID を使用して AWS DMS タスクログをダウンロードするための完璧な Python コードを見つけてください。この記事の残りの部分では、Python コードを分解してそのソリューションの使用方法を次の順序で説明します。 必要なライブラリをインポートします。 DMS タスク ID の引数とログの時間範囲を読み取ります。 エポックからの経過時間をミリ秒に変換します。 […]

Read More

AWS DeepRacer League: 最初の仮想サーキットチャンピオンが王者になってから、6 月のレースが始まります!

AWS DeepRacer League は、誰に対しても開かれている、世界初のグローバル自走型レーシングリーグです。DeepRacer コンソールを使用して、世界中の 21 のイベントで競い合い、賞品と栄誉を掴みましょう。あらゆるスキルレベルの開発者が楽しく刺激的な方法で機械学習を活用することができます。4 月末に仮想サーキットが開始され、開発者はコンソールを通して世界中のどこからでも競い合うことができます。毎月の大会 6 つのうちの 1 つでポイントを獲得してリーダーボードの上位に進出できます。車やトラックは必要ありません。 肝心な 6 月のレースにご注目ください! 6 月 3 日にクモトラックチャレンジが開催され、6 月 30 日の深夜 (太平洋標準時) までレースが続きます。日本の鈴鹿サーキットから始まったこのトラックは、あらゆるスキルレベルの開発者がモデルをテストし、機械学習の知識と実践経験を向上させるのに役立ちます。コンソールにログインするだけで十分です。モデルを起動して実行する簡単なステップをいくつか実行して、レースを始めることができます。AWS 無料利用枠では、最初の 30 日間の使用で最長 10 時間のトレーニングを受けることができるので、AWS DeepRacer League に無料で参加できます。 基本学習が終わったら、リーダーボードへの提出準備が整うまで、AWS DeepRacer オンラインシミュレーターに熱中し、モデルのトレーニングを見ることができます。ヘアピンカーブを回って富士山の景色を眺めてみますか? モデルが曲線を通るように速度や方向を最適化しますか? ポールポジションになるようにモデルを調整できますか? 本日のレースにご参加ください。複数のオンラインレースに出場すると、より多くのポイントを獲得し、仮想サーキットの賞品に当たる可能性が高まります。 AWS DeepRacer League は誰にでも開かれています。仮想サーキットはコンソールからでも参加でき、AWS DeepRacer の車を購入したり、対戦機会を得るために対人レースに参加したりする必要はありません。エンジンを始動させてください、6 月のレースが始まります! AWS DeepRacer 3D オンラインシミュレーターから、クモトラックのフルラップをご覧ください。 鈴鹿サーキットと新しいクモトラックの仮想レーストラック クモトラックの新機能は何ですか? 風景を楽しむ以外にも、秒速 8 メートルの最高速度でモデルをトレーニングすることができます。しかし、クモトラックには狭いコーナーがあり、最高速度で走る車は曲線コースをうまく回ることができない恐れがあります。ご注意ください。モデルが一点に集まるまでには時間がかかる場合があります。スロットルを大きくするとトレーニング時間が長くなる可能性があるため、成功するためには報酬機能で速度をお試しください。re:Invent 2019 […]

Read More