投稿日: Dec 9, 2016

ウェブ、モバイル、コネクテッドデバイス向けアプリケーションでリッチな対話型ユーザー体験を実現する Amazon Lex:本日よりプレビュー版を提供開始
24 言語、リアルな 47 の音声で話すアプリケーションを開発可能なサービス:
テキストを人間らしい自然な音声に変換する Amazon Polly
強力なディープラーニング画像/顔認識技術を活用した画像解析機能を
容易にアプリケーションに追加できる Amazon Rekognition
Capital One、SmugMug、NASA、HubSpot、など、多くのお客様がこれらの Amazon AI サービスのプレビュー版を利用

(シアトル発、2016 年 11 月 30 日発表)Amazon.com, Inc. (NASDAQ:AMZN)の関連会社である Amazon Web Services, Inc. は本日、米国ラスベガスで開催された AWS re:Invent にて、人工知能(AI)を活用した 3 つの Amazon AI サービス、Amazon Lex、Amazon Polly、Amazon Rekognition を発表しました。Amazon AI サービスを使用することで、デベロッパーは自然言語を理解できるアプリケーションや、テキストを人間らしい自然な音声に変換し、音声やテキストで会話するアプリケーション、画像を解析し、顔や物体、風景を認識できるアプリケーションを容易に開発できます。これら 3 つの Amazon AI サービスは、AWS の数千人のディープラーニング(深層学習)および機械学習(マシーンラーニング)専門家により開発された実績のある拡張性に優れた Amazon の技術を活用して実現しています。Amazon AI サービスは、拡張可能でコスト効率に優れた、高品質で高精度なAI機能を提供します。また、フルマネージドサービスであるため、ディープラーニングアルゴリズムの構築や、機械学習モデルのトレーニング、インフラへの先行投資を必要としません。そのため、デベロッパーは周りの世界を見、聞き、話し、理解し、会話できる全く新しい世代のアプリの開発に注力することができます。Amazon Lex、Amazon Polly、Amazon Rekognition については以下の URL をご覧ください。https://aws.amazon.com/jp/amazon-ai

膨大な量のデータにアクセスする必要や、機械学習やニューラルネットワークの専門知識が求められることから、これまで、ほとんどのデベロッパーはAI機能を活用したアプリケーションの開発や幅広い展開を行ってきませんでした。効率的にAIを適用するには、様々な種類の機械学習およびディープラーニングアルゴリズム(自動音声認識、自然言語理解、画像分類など)を開発、調整し、その後、トレーニングデータを収集、整理して、さらに機械学習モデルをトレーニング、調整するという、膨大な手作業が求められます。そして、1 つのアプリケーションの中で物体、顔、音声、言語、一つ一つに対してこの同様のプロセスを繰り返す必要があります。Amazon AI サービスは、Amazon の高性能かつ実績のあるディープラーニングアルゴリズムおよび技術を、API コールを介して、或いは AWS マネージメントコンソールで数回クリックするだけで利用できるフルマネージドサービスとして提供されます。そのため、アプリケーション開発者は、これまでのような手間をかけることなく、幅広い分野で AI を活用できます。Amazon AI サービスは、どこからでも規模の大小に関わらず、あらゆるデバイスやアプリで使用できる Amazon の自然言語理解、音声認識、音声読み上げ、および画像解析技術をフルに活用しています。

AWS のデータベース、分析、AI 担当バイスプレジデント、ラジュ・グラバーニ(Raju Gulabani)は「クラウドで提供される優れたアルゴリズムと、膨大な量のデータにアクセスできる能力、そしてコスト効率に優れたコンピュート性能を組み合わせることで、AI はアプリ開発者にとって現実的なものとなります。現在利用されている最も革新的かつ創造的なアプリケーションのいくつかは、AWS を活用して提供されています。Amazon 全社にわたる数千の機械学習およびディープラーニング専門家は、長年にわたり AI 技術の開発に取り組み、ロボティクスやコンピュータービジョン技術を用いてお客様がどのような分野で効率を高めたいのかを予測し、AI アシスタントの Alexa を提供しています。

今回、これらのイノベーションの基礎技術を、使いやすく高性能でコスト効率に優れたフルマネージド型の 3 つの Amazon AI サービスとして、デベロッパーに提供できることを大変嬉しく思います。今後、お客様がどのようにして Amazon Lex、Amazon Polly、Amazon Rekognition を活用して、人間のようなインテリジェンスを持ち、見、聞き、喋り、交流できる新世代のアプリケーションを開発するのか大変楽しみにしています」と述べています。

インテリジェントな会話を実現する Amazon Lex
Amazon Lex は、Amazon Alexa で使用されている自動音声認識(ASR)技術と自然言語理解(NLU)を活用した、音声とテキストによる対話型インタフェースを構築するための新しいサービスです。Amazon Lex により、ほぼ全てのアプリに高度な自然言語機能を容易に追加できるようになります。また、デベロッパーは AWS マネージメントコンソールから直接、様々なボット(天気を調べる、航空券を予約するなど、自動タスクを実行する対話型アプリ)を作成し、テストできます。インストラクションに沿って、2、3 のキーワード(“飛行機を探す” 、“航空券を予約する”)を入力するだけで、タスクを完了するのに必要な項目(”旅行日”、”旅行先”)や、関連する質問(”いつ旅行をしたいのですか?”、”どこに行きたいのですか?”)が追加されます。その後は、Amazon Lex が自動で、言語モデルやタスク完了に必要な補足質問を作成してくれます。Amazon Lex は AWS Lambda に統合されているため、AWS Lambda 機能により、適切なバックエンドサービス(例えば、航空券予約サービスなど)を起動するように設定することができます。また、Salesforce、Microsoft Dynamics、Marketo、Zendesk、QuickBooks、HubSpot のようなエンタープライズシステムからデータを持って来ることで、「Salesforce.com 内のトップ 10 アカウントを教えて?」のような質問に答えられる AWS Lambda 機能を実行する事前に構築されたエンタープライズコネクターを使用することもできます。

Amazon Lex で作成されたボットは、ウェブアプリケーションや、Slack や Facebook Messenger などのメッセンジャーアプリ、またはモバイルアプリやコネクテッドデバイス内の音声を介して、どこででも使用することができます。様々なプラットフォームで要求される認証にも対応し、プラットフォーム毎にカスタムコードを記述する必要がないことから、ユーザーインタフェースデザインを簡素化できます。さらに、ボットへのトラフィックが増加した際は、Amazon Lex が自動で容量を拡張するため、インフラ拡張に気をわずらわすことなく、Amazon Lex API にコールした分だけ料金を支払うだけでよいのです。

Capital One は、様々なチャネルを通じて広範な金融製品をコンシューマ、小規模企業、商用クライアントに提供しています。Capital One の Capital One Labs 担当最高技術責任者(CTO)のフィーローズ・ラフェル(Firoze Lafeer)氏は「AWS のヘビーユーザーである当社としては、Amazon Lex が AWS Lambda や Amazon DynamoDB など、その他の AWS サービスとシームレスに統合されたことは大変魅力的です。拡張性に富んだソリューションである Amazon Lex は、最近発表された当社の Capital One skill for Alexa のような、新世代の音声、テキスト対話製品の市場投入期間をさらに短縮するでしょう」と述べています。

インテリジェントスピーチを実現する Amazon Polly
Amazon Polly は、ニュースリーダーや e ラーニングプラットフォームのような既存のアプリケーションに、人間らしい自然なスピーチ機能を容易に追加できるサービスです。また、モバイルアプリからアプライアンスに至るまで、全く新しいカテゴリーのスピーチ対応製品を開発することができます。AWS マネージメントコンソールから、または SDK を使用して Amazon Polly にテキストを送信すると、Polly からすぐに再生可能なオーディオストリーム、または標準音声フォーマットに保存されたファイルが返信されます。24 言語をサポートするリアルな 47 の音声の中から、様々なアクセントを持つ男性または女性の声を選択でき、世界中のユーザーに対応するアプリケーションを開発できます。Amazon Polly はテキストコンテンツを流暢に発音できるため、様々なテキストフォーマットのコンテンツを高品質の音声で読み上げることができます。拡張性に優れた Amazon Polly は、大容量のテキストを音声に変換する際でも、高品質の音声を素早く送り返すことができます。Amazon Polly は変換したテキストの分だけ支払う料金システムを採用しており、一度生成された音声はキャッシュに保存し、制限なく何度でも繰り返し再生することができます。

The Washington Post は、1 日に 1,200 以上の記事を公開するピューリッツァー賞受賞メディアであり、テクノロジーカンパニーです。The Washington Post のシニアプロダクトマネージャのジョセフ・プライス(Joseph Price)氏は「当社は長い間、記事の音声版の提供に関心を寄せていました。しかし、既存の音声読み上げソリューションは、コストに見合った音声品質を得られませんでした。高品質の音声読み上げ機能を備える Amazon Polly の登場により、当社のコンテンツをこれまで以上にリッチで多様な形で読者にお届けできることを大変楽しみにしています」と述べています。

インテリジェント画像解析を実現する Amazon Rekognition
Amazon Rekognition は、画像を解析し、顔や物体、景色を認識するアプリを迅速かつ容易に開発できるサービスです。Amazon Rekognition はディープラーニング技術を活用して、自動車やペット、家具など、物体や景色を自動的に特定し、信頼スコアを提示します。そのスコアを用いて、デベロッパーはアプリケーションユーザーがキーワードで特定の画像を検索できるように、画像にタグ付けすることができます。画像内の顔を特定し、「顔が笑っている」、「目が開いている」など、その特徴を検出することもできます。また、顔比較や顔検索など先進の顔解析機能もサポートします。Rekognition を使用することで、2 枚の画像に映る人の顔が同じ人のものかを計測し、ほぼリアルタイムで参照写真からユーザーを特定するアプリを開発することもできます。同じように、(画像から検出される)数百万の顔のコレクションを作成し、コレクション内の参照画像から、似たような顔を検索することも可能です。Amazon Rekognition は包括的な画像分類、検出、管理機能を、簡潔でコスト効率に優れ、信頼性の高い AWS サービスとして提供することで、高額な画像処理パイプラインの開発、管理に必要な複雑な作業やオーバーヘッドを取り除くことができます。初期費用は不要で、分析した画像や、保存した顔の特徴要素の数に応じて料金を支払うことになります。

SmugMug は、毎日、数百万のユーザーが撮影した数百万の美しい写真を保存する安全な写真ライブラリサービスを提供しています。SmugMug の共同設立者兼最高経営責任者(CEO)で主任ギークであるドン・マッカスキル(Don MacAskill)氏は「当社のお客様は、大切な時間を、写真の管理にではなく、より多くの思い出を残すために使いたいと望んでいます。Amazon Rekognition により、ユーザーの写真の内容を自動的に特定でき、ユーザーやビジターが写真を称賛したり、人生を楽しむためにより多くの時間を使える多くの機能を提供できるようになります」と述べています。

AWS のディープラーニングと AI
Amazon Polly は本日より、US East(バージニア北部)、US East(オハイオ)、US West (オレゴン)、EU(ダブリン)、Amazon RekognitionはUS East(バージニア北部)、US West (オレゴン)、EU(ダブリン)の各リージョンにて展開され、その他のリージョンへの展開は今後発表される予定です。Amazon Lex のプレビュープログラムは本日より、登録を受け付けます。
これらの 3 つのサービス以外にも、AWS は最近、カーネギーメロン大学とその他の大手大学で開発が始まったオープンソースのディープラーニングフレームワークである MXNet に多大な投資を行い、コードとデベロッパー体験の改善に貢献していることを発表しました。MXNet により、機械学習科学者は、アプリケーションのトレーニング時間を大幅に短縮できる、拡張性に富んだディープラーニングモデルを開発できるようになります。AWS の MXNet のサポートについては以下の URL をご覧ください。
http://www.allthingsdistributed.com/2016/11/mxnet-default-framework-deep-learning-aws.html

また、AWS は、デベロッパーがディープラーニングおよび機械学習ワークロードを実行して AWS 上で自社の AI プラットフォームを容易に開発できるようにしました。広範なインスタンスタイプと大容量メモリーを搭載した GPU を備える Amazon Elastic Compute Cloud (Amazon EC2)は、ディープラーニングトレーニングに最適です。2016 年 9 月に発表された P2 インスタンスは、大規模な機械学習やディープラーニング向けに設計されており、12 GiB メモリーと 2,496 個の並列処理コアを備える 2 つの NVIDIDA GK210 GPU を搭載した NVIDIA Tesla K80 アクセラレーターを最大 8 個まで搭載します。また、付属品、Nvidia ドライバ、Jupyter や Anaconda などデータ分析ツールのすべてが同梱された、予め設定済で検証済の 6 つのディープラーニングフレームワークからなる Deep Learning AMI や、数クリックでディープニュートラルネットワークのトレーニングを行える AWS CloudFormation テンプレートもご利用いただけます。

アマゾンウェブ サービスについて
アマゾンウェブ サービス(AWS)は 10 年の間に、世界で最も包括的かつ幅広く採用されたクラウドプラットフォームになっています。AWS は、米国、オーストラリア、ブラジル、中国、ドイツ、アイルランド、日本、韓国、シンガポールおよびインドの 14 の地域の 38 のアベイラビリティーゾーン(AZ)で、コンピューティング、ストレージ、データベース、アナリティクス、モバイル、モノのインターネット(IoT)、およびエンタープライズ向けアプリケーションに関する 70 種類以上のフル機能のサービスを提供しています。AWS のサービスは、急速に成長しているスタートアップ企業や大手企業、および有数の政府機関を含む 100 万以上のアクティブなお客様から、俊敏性をさらに高めると同時にコスト削減を実現するインフラエンジンとして信頼されています。AWS の詳細については以下の URL をご参照ください。
http://aws.amazon.com

アマゾン・ドットコムについて
Amazon は4 つの理念を指針としています。競合他社ではなくお客様を起点にすること、創造への情熱、優れた運営へのこだわり、そして長期的な発想です。カスタマーレビュー、1-Click 注文、パーソナライズされたおすすめ商品機能、Amazon プライム、フルフィルメントby Amazon(FBA)、アマゾンウェブ サービス
(AWS)、Kindle ダイレクト・パブリッシング、Kindle、Fire タブレット、Fire TV、Amazon Echo、Alexa などは、Amazon が先駆けて提供している商品やサービスです。Amazon の詳細については以下のURL をご参照く
ださい。
www.amazon.com/about

報道関係からのお問い合わせ先
アマゾン ウェブ サービス ジャパン株式会社
PR マネージャー
野見山 祐子
Email: yukotac@amazon.co.jp