Category: Artificial Intelligence*


柔軟性の高いディープラーニングのために簡単に使用できるプログラミングインターフェイス Gluon のご紹介

本日は、AWS と Microsoft が、どのディープラーニングフレームワークを選択するかにかかわらず、すべての開発者向けに機械学習テクノロジーの速度、柔軟性、アクセス性を向上させることを主眼とした新しい仕様を発表しました。この連携による最初の結果が、新しい Gluon インターフェイスです。これはあらゆるスキルレベルの開発者がディープラーニングモデルのプロトタイプ作成、構築、トレーニングを行えるようにする、Apache MXNet のオープンソースライブラリです。このインターフェイスにより、トレーニング速度を犠牲にすることなく、ディープラーニングモデルの作成プロセスを大幅に簡略化できます。

Gluon の 4 つの重要な利点と、それを示すサンプルコードを示します。

(1) シンプルで理解しやすいコード

Gluon では、シンプル、明瞭、簡潔なコードを使ってニュートラルネットワークを定義できます。事前定義されたレイヤー、オプティマイザ、イニシャライザを含む、プラグアンドプレイのニュートラルネットワーク構築要素のフルセットを入手できます。これにより、基盤となる複雑な実装詳細の多くが排除されます。次の例では、わずか数行のコードでシンプルなニュートラルネットワークを定義する方法を示しています。

# 最初のステップはモデルの初期化です
net = gluon.nn.Sequential()
# Then, define your model architecture
with net.name_scope():
    net.add(gluon.nn.Dense(128, activation="relu")) # 最初のレイヤー - 128 ノード
    net.add(gluon.nn.Dense(64, activation="relu")) # 2 番目のレイヤー – 64 ノード
    net.add(gluon.nn.Dense(num_outputs)) # Output layer

次の図に、ニュートラルネットワークの構造を示します。

詳細については、こちらのウォークスルーに移動して、Gluon ニュートラルネットワーク構成要素を使って multilayer perceptron (MLP) と呼ばれるシンプルなニュートラルネットワークを作成する方法を参照してください。より高度なユースケース向けに、ニュートラルネットワークのパーツをゼロから作成することも簡単です。Gluon では、ニュートラルネットワークで定義済みのカスタムコンポーネントを組み合わせて利用することができます。

(more…)

Using Amazon Polly to Provide Real-Time Home Monitoring Alerts

このブログは、Y-cam Solutions のシニア開発者である Siva K. Syamala によるゲストブログポストです。Syamala 女史の言葉によると、「Y-cam は高性能なセキュリティビデオソリューションのプロバイダとして、すべての人々に簡単で扱いやすいスマートホームセキュリティを提供してくことをビジョンに掲げています」。

ホームセキュリティは、ホームオートメーションと IoT の活用においてとても重要な要素です。Y-cam Solutions Limited は Amazon をその基盤援助として、世界各地からスマートフォンによるモニタリングと制御ができるスマートセキュリティシステムを提供してきました。アラート、通知、そしてシステムをコントロールする方法を改善するために、Y-cam は Amazon Polly を使用して、ユーザーが会話によってセキュリティシステムと交信できる最新型の AI サービスを提供します。

当社サービスの作動方法

アラームが発生すると、Twilio を通じて音声によるカスタマーへの通知が行われます。呼び出しが確立されたら、Twilio は TwiML の指示に従って手順を実行し、Amazon Polly から取得する音声構成を使用してカスタマーにストリーミングを開始します。呼び出しの受信者は、携帯電話のキーパッド (DTMF コード) のボタンを押して回答します。DTMF コードによって、当社のサービスは指定されたアクションを実行し、Amazon Polly から取得する音声合成への TwiML 指示を返します。実際により近い会話を実現するには、Amazon Polly が素早く返答することがとても重要となります。遅延と待機時間は不満を引き起こし、受信者が電話を終了してしまう可能性を増大させます。

以下は、アラームが発生した場合のカスタマーへの通話を示すオーディオクリップのサンプルです。

アーキテクチャ

 

Amazon Polly の呼び出し

次の Java コードは、Amazon Polly から音声合成がリクエストされ、S3 バケットに保存されることを示しています。

(more…)

利用可能になりました – Amazon Linux AMI 2017.09

Amazon Linux AMI の最新バージョン (2017.09) が、すべての AWS リージョンの現行世代の EC2 インスタンスで利用可能になったことをお知らせします。AMI には、EC2 上で実行するアプリケーションのために安定した安全で高性能な環境を提供するように設計された Linux イメージのサポートと保持が含まれています。

簡単なアップグレード
次の 2 つのコマンドを実行して既存のインスタンスをアップグレードし、再起動します。

$ sudo yum clean all
$ sudo yum update

盛りだくさん
AMI には多くの新機能が含まれており、そのうち多くはお客様のリクエストに応えて追加されたものです。概要は次をご覧ください。

Kernel 4.9.51 – Based on the 4.9 の安定したカーネルシリーズをベースにしたこのカーネルには、ENA 1.3.0 ドライバーと TCP Bottleneck Bandwidth and RTT (BBR) のサポートが含まれています。私の投稿 Elastic Network Adapter – High-Performance Network Interface for Amazon EC2 to learn more about ENA をお読みください。BBR を有効にする方法については、リリースノートをお読みください。

Amazon SSM Agent – Amazon SSM Agent がデフォルトでインストールされるようになりました。これにより、EC2 Run Command を使用して、追加セットアップを必要とせずにインスタンスでスクリプトを設定して実行できるようになりました。詳細については、Systems Manager Run Command を使用したコマンドの実行または Manage Instances at Scale Without SSH Access Using EC2 Run Command をお読みください。

Python 3.6 – 最新バージョンの Python が含まれ、virtualenv および alternatives で管理できるようになりました。Python 3.6 は次のようにインストールできます。

$ sudo yum install python36 python36-virtualenv python36-pip

Ruby 2.4 – 2.4 シリーズの最新バージョン Ruby が利用可能になりました。次のようにインストールします。

$ sudo yum install ruby24

OpenSSL – AMI は、OpenSSL 1.0.2k を使用するようになりました。

HTTP/2 – HTTP/2 プロトコルが AMI の httpd24nginx、および curl パッケージでサポートされるようになりました。

リレーショナルデータベースPostgres 9.6 および MySQL 5.7 が利用可能になりました。次のようにインストールできます。

$ sudo yum install postgresql96
$ sudo yum install mysql57

OpenMPIOpenMPI パッケージが 1.6.4 から 2.1.1 に更新されました。OpenMPI 互換パッケージが利用可能になり、古い OpenMPI アプリケーションの構築と実行に使用できるようになりました。

その他 – その他の更新パッケージには、Squid 3.5Nginx 1.12Tomcat 8.5、および GCC 6.4 があります。

今すぐ起動できます
この AMI を使用して今すぐすべての AWS リージョンで EC2 インスタンスを起動できます。この機能は、EBS-backed インスタンスと Instance Store-backed インスタンスで使用でき、HVM および PV モードをサポートします。

Jeff;

Amazon Lex と Amazon Alexa を使用した質疑応答ボットの作成

ユーザーの質問に対する回答を持っていますが、ユーザーが質問をして適切な回答を得る良い方法が必要です。多くの場合、ユーザーはヘルプデスクに電話するか、サポートフォーラムに投稿しますが、ストレスが高まり、組織にとってコストがかかります。チャットボットがあれば、顧客にとって便利でしょう。興味深いことに、最近の調査は、ユーザーの 44% が人間と話すよりもチャットボットと話すことを望んでいます。

この投稿では、QnABot (「キューアンドエーボット」と発音) と呼ばれるサンプルソリューションについて説明します。 QnABot は、Amazon LexAmazon Alexa を使用して、「質疑応答」のための便利なインターフェイスを提供します。これにより、ユーザーは質問をして関連する回答をすばやく得ることができるようになります。

Amazon Lex を使用すると、音声とテキストチャットアクセスの両方を既存のアプリケーションに統合できます。Amazon Alexa を使用すると、Amazon Echo または Alexa Voice Service 対応デバイスを自宅や職場で使用しているユーザーに、ハンズフリー音声インターフェイスを提供できます。QnABot は両方の長所を最大限に活用しています。

QnABot は、Amazon Elasticsearch Service (Amazon ES) を使用して質問と回答を検索可能にします。ユーザーが質問をすると、Amazon ES の強力な全文検索エンジンが背後で使用され、その質問に最も合った回答が検索されます。

以下のセクションでは、次のことを行う方法について説明します。

  • QnABot を AWS アカウントにデプロイする。このブログでは、お客様が既に AWS を利用していることを前提としています。アカウントをまだ作成していない場合は、AWS ホームページの [Create an AWS Account] を選択してください。
  • コンテンツデザイナー UI を使用して、質問と回答を QnABot に挿入する。
  • ウェブクライアント UI で音声またはチャットを使用して質問をする。
  • 最新の Amazon Echo デバイスを使用してハンズフリーで質問をする。
  • QnABot のコンテンツのトラブルシューティングと調整を行って、間違った回答が表示される可能性を最小限に抑える。
  • 画像やウェブリンクによって回答を強化する。

さらに、QnABot のしくみについても詳しく調べ、ニーズに合わせて強化するためのアイデアも示します。

(more…)

Build a Voice Kit with Amazon Lex and a Raspberry Pi

この記事では、広範に利用可能なコンポーネントを利用して、Amazon Lex をどのようにカスタムハードウェアに組み込むかを紹介します。シンプルな音声ベースの AI キットを構築して、Amazon Lex に接続する方法を示します。Raspberry Pi および合計 60 ドル以下の市販のコンポーネントをいくつか使用します。このブログの終わりまでに、Amazon Lex PostContent API に統合された、インターネット接続されたハードウェアデバイスが使用できるようになります。音声制御ロボットおよび音声制御メトロノームなどの、幾つかのボットのデモも行います。

コンポーネント概要

Amazon Lex ハードウェアキットを構築するには、以下のコンポーネントが必要です。

  • Raspberry PI 3 Model BAmazon で 35 ドルから。
  • Kinobo – USB 2.0 ミニマイク、Amazon で 5 ドルから。
  • Adafruit I2S 3W ステレオスピーカーボンネットおよびスピーカー、adafruit で 12 ドルから。
  • (オプション) Qunqi クリアーケースボックスエンクロージャー、Amazon で 20 ドルから。

物理的な作成

Raspberry Pi

図 1. Raspberry PI Model B

このプロジェクトでは、Raspberry PI 3 Model B ストックを使用します。図 1 は、Raspberry Pi をクリアーケースボックスキットに設置したところです。クリアーケースボックスは Pi、デジタルオーディオコントローラー (DAC)、およびスピーカーを置くのにちょうどぴったりですが、必須ではありません。

(more…)

Amazon Connect と Amazon Lex のインテグレーション

私のお気に入りのサービス、Amazon ConnectAmazon Lex に機能強化が施されました。セルフサービスの Amazon Connect はクラウドベースのサポートセンターで、ビジネスがより良いカスタマーサービスを低コストで簡単に提供できるようにしています。Amazon Lex は、音声とテキストを使用して会話型インターフェイスを構築するためのサービスです。この 2 つのサービスを統合することで、Lex の自動音声認識 (ASR) と自然言語理解 (NLU) の性能を利用し、優れたセルフサービスエクスペリエンスを顧客に提供することができます。この統合を有効にするため、Lex チームが 8kHz の音声入力サポートを追加しました。これについては後ほど詳しくご説明します。この機能のメリットは?顧客によるリクエストの大半をボットが解決できれば、電話での待ち時間を削減し、ユーザーは時間を無駄にすることなく製品を使用することができます。

Connect または Amazon Lex の背景情報については、Jeff が過去に公開したブログ [1][2] をぜひお読みください。LEGO ファンの方は特にお楽しみいただけると思います。


では、この新しい統合の使用方法を見ていきましょう。Twitch チャンネルで構築したアプリケーションを使用して、このブログ用に内容を変更します。アプリケーションのコアでユーザーが Amazon Connect の番号を呼び出します。この番号はユーザーを Lex ボットに繋げ、AWS Lambda 関数を開始します。これは Lex のインテントをベースにしています。アプリケーションでできることは?

最良のコードエディタは何だと思いますか? 個人的には vim が好きです。コード編集を行うには最高のエディタです。私の同僚の Jeff は emacs を選んでいます。 これは素晴らしいオペレーティングシステム エディタです。もし、生まれつき指の関節が普通以上にあればの話しですが。そして同僚の Tara が選んだのは Visual Studio です。これも圧倒的に優れたエディタです。ということで、もっとも優れたエディタがどれか議論するのではなく、皆さんに投票してもらうのが良いのではないかと思います。バタフライに投票することもできますので、ご安心を。

投票に参加してみませんか?+1 614-569-4019 に電話し、あなたが最高のエディタだと思うものをお知らせください!皆さんの電話番号を保存したり、音声を録音することはありませんので、何回も vim に投票して下さって構いません。ライブで投票結果を見てみますか?  http://best-editor-ever.s3-website-us-east-1.amazonaws.com/.

さて、この仕掛けをどうやって構築したと思いますか?このブログでは各コンポーネントについて説明しますが、すでに LexLambda に触れているので、主に Amazon Connect コンポーネントについて焦点を当てることにします。ここでは、すでに皆さんが Connect インスタンスを実行中であることを前提とします。

Amazon Lex

まず Lex について説明します。まず、 VoteEditor という名前のボットを 2 つのインテントを使用して作成します。 VoteEditor に単一のスロットがあり editorConnectToAgent にはスロットがありません。editor スロットに様々なコードエディタ名を入れます (emacs は除去しておきましょうか)。

AWS Lambda

Lambda 関数も実にシンプルです。まず、Amazon DynamoDB テーブルを作成して投票結果を保存します。次に Lex (build_response) に応答するヘルパーメソッドを作成します – これでメッセージを Lex の分かりやすいレスポンス形式でラップできるようになります。後はフローロジックを特定するだけです。


def lambda_handler(event, context):
    if 'ConnectToAgent' == event['currentIntent']['name']:
        return build_response("Ok, connecting you to an agent.")
    elif 'VoteEditor' == event['currentIntent']['name']:
        editor = event['currentIntent']['slots']['editor']
        resp = ddb.update_item(
            Key={"name": editor.lower()},
            UpdateExpression="SET votes = :incr + if_not_exists(votes, :default)",
            ExpressionAttributeValues={":incr": 1, ":default": 0},
            ReturnValues="ALL_NEW"
        )
        msg = "Awesome, now {} has {} votes!".format(
            resp['Attributes']['name'],
            resp['Attributes']['votes'])
        return build_response(msg)

コードを理解できているか確認します。つまり、まだ存在しないエディタに票が入ったら、エディタに 1 票を追加するようにします。そうでなければ、そのエディタの票数を「1」増やします。エージェントのリクエストを受けたら、フローを終了してフレンドリーなメッセージを返します。どうです、簡単でしょう。後は投票結果を見るため、Lex ボットに Lambda 関数を使うように指示するだけです。次に進む前に、Lex コンソールですべて問題なく作用しているか確認することができます。

Amazon Connect

問い合わせフローで Lex ボットを使用する前に、Amazon Connect インスタンスにアクセスできるか確認します。そうするには、Amazon Connect サービスコンソールに行き、インスタンスを選択してから「問い合わせフロー」にアクセスします。ボットの追加先となる Lex のセクションが表示されます。

Amazon Connect のインスタンスが Lex ボットを呼び出せることが分かったところで、Lex ボットを含む新しい問い合わせフローを作成します。[Interact] カテゴリから [Get customer input] ウィジェットを介してフローにボットを追加します。

ウィジェットを起動すると、電話の数値キーから入力を許可するための [DTMF] タブ、または音声入力とその情報を Lex サービスに渡す [Amazon Lex] タブが表示されます。[Lex] タブを使用していくつかの事項を設定します。

様々なオプションがありますが、要するに使用したいボットを追加したり (ボットのバージョンも同様)、ボットで使用したいインテントや、ボットを紹介する小さなプロンプトを追加します (場合によっては顧客にコメントを入力するように促すなど)。

最終的にコンタクトフローは次のようになります。

実際には Lex ボットを介して多数のトランザクションをユーザーが実行できるようにする場合もあるでしょう。次に、エラーまたは ConnectToAgent のインテントで、ユーザーが実際のスタッフと対話ができるキューにユーザーを追加します。ユーザーの情報を収集し保存して、エージェントが利用できるように多機能のインターフェイスを追加します。これにより、エージェントは必要な情報をすべて把握した上でユーザーとの会話をすぐに始めることができます。

では次に Lex がサポートする 8kHz オーディオサポートの使用によるメリットについて説明します。Lex は、もともと電話から 8 kHz 入力以上の高音質でサンプルされた音声入力のみサポートしていました。現代のデジタル通信アプリケーションは、通常最低でも 16 kHz でサンプルされたオーディオ信号を使用しています。この忠実度が高いレコーディングでは「ess」(/s/) や「eff」(/f/) といった音の違いを聞き分けることができます。少なくても、そのようにオーディオ専門家は説明しています。それに比べ、電話は大幅に質の低いレコーディングを使用しています。人間と人間の耳というのは、低質の録音でも音声が何を言っているのか前後関係から把握するのに長けています (証拠は「NASA アポロのレコーディング (NASA apollo recordings)」をご覧ください)。ですから、電話のデジタルシステムは大方デフォルトで 8kHz サンプリングをセットアップに使用しています。帯域幅と忠実度において具合の良いトレードオフだと思います。電話の声がいつもと違うように聞こえるのは、そのためです。サンプリングレートの基本的な問題に加えて、携帯電話によるコールデータでは通話中に聞こえないという問題がよくあります (もしもし、聞こえますか? といった具合に)。多種多様の何千種類ものデバイスと何百社というメーカー、そして数えきれないほどの様々なソフトウェア実装があります。そこで、認識にまつわる問題はどうやって解決したらいいと思いますか?

Lex チームは、この問題への対処方法は音声入力に使用する一連のモデルを拡張し、8kHz モデルを含むことだと判断しました。8 kHz のテレフォニーオーディオサンプリングレートのサポートにより、音声認識の精度やサポートセンターとのやり取りの忠実度を高めることができます。これは、数多くのお客様が Amazon Connect をもっと利用できるようにと対応しているチームの素晴らしい努力の結果と言えるでしょう。

最後になりますが、Amazon Connect は外部開発者として使用できる PostContent エンドポイントと同じものを使うため、Amazon Connect を使用していないユーザーでも Lex で 8kHz を使用することが可能です。

以上となりますが、お楽しみいただけましたか? 詳細はいつも通り「ドキュメント (docs)」や「API リファレンス (API Reference)」をご参照ください。

Randall

Amazon Rekognition の更新 – 有名人の認識

re:Invent で Amazon Rekognition をリリースし (「Amazon Rekognition – ディープラーニングがサポートする画像の検出と認識 (Amazon Rekognition – Image Detection and Recognition Powered by Deep Learning))、本年初頭にイメージモデレーションを追加しました。本日は、有名人の認識を追加します。Rekognition のトレーニングにより、政治、スポーツ、芸能、ビジネス、メディアなどの分野の有名人や著名人を多数識別できるようになりました。このリストはグローバルで、頻繁に更新されます。この機能にアクセスするには、新しい RecognizeCelebrities関数を呼び出します。既存の DetectFaces 関数によって返される境界ボックスおよび顔ランドマーク機能に加えて、新しい関数では認識される有名人に関する情報が返されます。

"Id": "3Ir0du6", 
"MatchConfidence": 97, 
"Name": "Jeff Bezos", 
"Urls": [ "www.imdb.com/name/nm1757263" ]

Urls は、有名人に関する追加情報を提供します。現在、この API は IMDB コンテンツへのリンクを返します。今後は他のソースを追加する可能性があります。この機能をお試しになるには、AWS Management Console有名人の認識デモをお使いください。

イメージアーカイブを持っている場合は、有名人別にインデックスを作成できます。有名人の認識とオブジェクトの検出を組み合わせて使用して、あらゆる種類の検索ツールを構築することもできます。イメージが S3 にすでに保存されている場合は、そこで処理できます。この新機能には、いろいろな面白い使い方があるかと思います。ご意見ご感想をお寄せいただき、皆様がどのようなものをビルドしたかお知らせください。

Jeff;

Amazon Polly – スピーチマークとウィスパーを発表

私のように、あなたは好きな本を読んでもらうために図書館か書店に行くのが好きかもしれません。幼い頃、声の抑揚を変えて話に命を吹き込むことができる上手な物語作家が物語る本の話を聞くのが好きでした。物語作家がよく使うスライド付きの本のナレーションは、新しい本を読んだり、見つけたりする私の趣味を駆り立てました。

実際、私の読書に関する趣味が古典小説にいたるように、両親はテープレコーダー付きの小さなプロジェクターを姉妹と私に買ってくれました。このプロジェクターは話を物語り、次のスクリーンに進むべきタイミングをチャイム音で知らせ、本と映像の投影を同期しました。不運にも、私はその話に夢中になってしまったけれど、私たちが TTS のようなスピーチ技術を実現するのにどれくらいの位置にいるのかについて振り返り、考えることが私にとって重要でした。あらゆるスピーチ技術の進歩をもってしても、TTS を利用して、ゲームやビデオ、デジタル書籍の中でキャラクターのアニメーションやグラフィックスに同期した会話/音声を追加することはデベロッパーにとって今だチャレンジングなものでした。加えて、リアルな音声のピッチやテンポ、音圧の強さを模倣するために TTS を利用したソリューションの成功事例は非常に稀でした。
これを踏まえて、Amazon Pollyスピーチマークウィスパーをサポート開始することを私は喜んで発表します。

Amazon Polly はテキストをリアルな音声に変換することを可能にする深層学習を利用したサービスです。サービスが提供する24の言語と47のリアルな音声から好きな音声を選択することが可能です。Polly を使って、音声に変換したいテキストを Polly の API に送信することができます。そして、API は再生、もしくは、MP3 のような共通オーディオファイルフォーマットに保存可能なオーディオストリームを返却します。

スピーチマークはデベロッパーが映像体験と会話の同期を可能とするメタデータです。この機能は、会話を顔のアニメーションと同期することや、カラオケスタイルの単語の強調表示を利用することで、リップシンクのようなシナリオを可能とします。スピーチマークメタデータは合成された音声を記述します。そして、スピーチマークメタデータを会話と一緒に使うことにより、音声ストリームが音、語句、文、そして SSML タグの始まりと終わりを決定することができます。新しいスピーチマークを利用することで、デベロッパーは今、リップシンクするアバターや視覚的に強調表示された読み下し体験を生み出すことができ、そして、キャラクターに声を与えるために Amazon Lumberyard のようなゲーミングエンジンに会話能力を統合することができます。

スピーチマークには4つの種類があります:

  • : 入力テキストの1文要素を明示する
  • 語句: 入力テキストの1単語要素を表す
  • ビゼーム(Viseme): 話された音に対応する顔と口の位置を説明する
  • Speech Synthesis Markup Language(SSML): SSML で表現された入力テキストから <mark> タグを記述する

ウィスパーはピッチやテンポ、音圧と似たスピーチエフェクトの1つで、デベロッパーに TTS 出力を装飾可能とするもう一つの音声表現機能を提供します。ウィスパー機能はデベロッパーが <amazon:effect name=”whispered”> SSML タグを使って、ささやき声で話される言葉を持つのを可能とします。

これら2つの新しい機能について、見てみることにしましょう。

 

スピーチマークの利用

AWS 管理コンソールで Amazon Polly を使ってスピーチマークを利用する例にさっそく入ります。まず最初に Amazon Polly のコンソールに移動し、Get Startedボタンを押下します。

Text-to-Speech (テキスト読み上げ機能) メニューオプションに入り、Text-to-Speech (テキスト読み上げ機能)セクションの下の SSML を選択します。話してほしい2文を提供されたテキストフィールドに単純に追加し、音声を選択します。

Listen to Speech (音声を聴く) ボタンをクリックしてフォームに設定された文章を確かめます。聞いた内容が良かったので、スピーチマークメタデータを追加する手順に進みます。スピーチマークを利用するため、Change file format (ファイル形式を変更) リンクを選択します。

Change file format (ファイル形式を変更) 画面がポップアップするので、File Format (出力形式) からスピーチマークを選択し、スピーチマークのタイプセクションの下のチェックボックスをチェックして、Word(語句) Sentence(文) を選択します。さあ、Change (変更) ボタンをクリックしましょう。

クリックすると、コンソールの Text-to-Speech (テキスト読み上げ機能) セクションに戻るので、生成されたスピーチマークを確かめるため、Download Speech Marks (Speech Marks のダウンロード) ボタンをクリックします。

ダウンロードファイルは .marks 拡張子のファイルで、JSON 形式になっており、設定した文と語句それぞれについて最初と最後に関する情報が含まれています。JSON の変数は下記の通りです。

  • Time: オーディオストリーム開始からのミリ秒単位経過時間
  • Type: スピーチマークの種別(viseme, sentence, word, SSML)
  • Start: 入力テキストにおける特定要素に関する先頭からのバイトオフセット(viseme は含まない)
  • End: 入力テキストにおける特定要素の最後のバイトオフセット(viseme は含まない)
  • Value: スピーチマーク種別に基づき様々な形式となるデータ(例: 文スピーチマークはテキスト中の文全体を含んでいる)


 

ウィスパーの利用

以前に指摘したように、ウィスパー機能を使うと whispered が値に設定された name 属性を持つ SSML amazon:effect タグを使ってささやき声で話される入力テキストを持つことが可能となります。上記の例を利用し、ささやき声を使って話されるように SSML タグを入力します。

Amazon Polly のコンソールに戻り、文章(“My name is Tara“)に新しいささやき声機能を使うため、設定されている現在のテキストを修正します。これを達成するため、次のSSMLタグを使用します: <amazon:effect name=”whispered”>。故、テキストボックスに入力した文章に SSML タグを入れた最終的な文章は次のようになります:

<speak>Hi!<amazon:effect name="whispered">My name is Tara.</amazon:effect>I am excited to talk about Polly's new features.</speak>

Listen to speech (音声を聴く) ボタンをクリックすると、文(“My name is Tara“)が本当にささやき声で話されているのが聴けます。

会話出力をダウンロードしたいので、Change file format (ファイル形式を変更) リンクをクリックします。Change file format (ファイル形式を変更) 画面がポップアップするので、File Format (出力形式) セクションの下から MP3 オプションを選択してから Change (変更) ボタンをクリックします。

今、私は Download MP3 (MP3 のダウンロード) ボタンをクリックしてファイルをダウンロードするオプションを持っています。

ここをクリックすることにより、新しいささやき声を使った会話出力を聞くことができます。

 

まとめ

スピーチマークウィスパー機能は Amazon Polly で本日からご利用いただくことが可能です。これらの機能やその他の機能についてもっと学ぶには、以下のリンクにある Amazon Polly デベロッパーガイドをご確認ください。
http://docs.aws.amazon.com/polly/latest/dg/

Amazon Polly に関する詳細は Amazon Polly の製品ページを参照いただくか、もしくは、Amazon Polly のコンソールでテキストを音声に変換するところから始めてください。

今日、Amazon Polly を使って、あなたのテキストに声の贈り物を与えるべきです。

Tara

 

(翻訳: SA川村,原文: Amazon Polly – Announcing Speech Marks and Whispering)

AWS チャットボットチャレンジを開催 – Amazon Lex と AWS Lambda を使用した対話式でインテリジェントなチャットボットを作成

AWS 2017 サンフランシスコサミットのリリース内容やお知らせを細かくチェックしていたユーザーなら Amazon Lex サービスの一般提供が開始し、今すぐご利用いただけるようになったことをすでにご存知かもしれません。Amazon Lex は、開発者が音声やテキストを使用するアプリケーションで対話式のインターフェイス構築を可能にするフルマネージド型の AI サービスです。Lex は Amazon Alexa を使用する Amazon Echo のようなデバイスと同じディープラーニングを使用しています。Amazon Lex のリリースにより、開発者は独自のアプリケーションで違和感のないユーザーエクスペリエンスやリアルな会話のやり取りを構築できます。Amazon Lex は Slack、Facebook Messenger、Twilio SMS に対応しています。こうした人気のチャットサービスを使用し、ユーザーの音声やテキストのチャットボットを簡単に発行することができます。Amazon Lex サービスを試し、独自のアプリケーションに優れた機能を追加するには、今が絶好のチャンスです。

さて、いよいよお知らせです。
この度 AWS チャットボットチャレンジを開催することになりました! AWS チャットボットチャレンジは、問題を解決したり今後のユーザーに向けた付加価値を追加する、他に例のないユニークなチャットボットを構築するチャンスです。AWS チャットボットチャレンジはアマゾン ウェブ サービスと Slack の協力により実現しました。

チャレンジ
このチャレンジに参加する開発者は、Amazon Lex を使用して自然な対話式のチャットボットを構築し、バックエンドでロジックプロセスやデータプロセスを実行するために AWS Lambda と Lex の統合を利用することになります。対象となるボットは新しいものでも既存のものでも構いませんが、既存のボットの場合はこのチャレンジのエントリー期間中に Amazon Lex と AWS Lambda を使用できるように更新する必要があります。

ソリューション構築時の制限は、あなたの想像力のみです。それでは、以下にボット作成やデプロイにおける創作力をサポートするアドバイスをいくつかご紹介します。チャットボットをよりユニークにするためのアドバイスについては次をご覧ください。

  • SlackFacebook Messenger または Twilio SMS にボットをデプロイする
  • 独自のボットソリューション構築時に別の AWS サービスを活用する
  • Amazon Polly のようなサービスを使用してテキスト読み上げ機能を導入
  • ほかのサードパーティー API、SDK、サービスを活用
  • Amazon Lex の構築済みエンタープライズコネクターを利用して SalesforceHubSpotMarketoMicrosoft DynamicsZendeskQuickBooks といったサービスをデータソースとして追加

AWS Lambda を使用してボットをコスト効率良く構築する方法があります。Lambda には毎月、無料利用枠のリクエスト数 100 万件とコンピューティング時間 400,000 GB/秒 が含まれています。無料提供している毎月の使用量はすべてのお客様を対象とし、無料利用枠の期間である 12 か月が終了した後も無効にはなりません。さらに、Amazon Lex を新たにご利用のお客様は、初年度において 10,000 件までのテキストリクエストと 5,000 件までの音声リクエストを毎月無料でプロセスすることができます。詳細はこちらをご覧ください。AWS の無料利用枠では、AWS にサインアップしたその日から 12 か月に渡り無料利用枠のサービスをご利用いただけるほか、12 か月の無料期間が過ぎた後も自動的にそれが無効になることはありません。AWS の無料利用枠と関連サービスの詳細については AWS 無料利用枠の詳細ページをご覧ください。

 

参加方法
AWS チャットボットチャレンジには、参加者の居住国で成年に達した年齢であれば、個人またはチームでこのコンペティションに参加できます。参加申込の時点で企業や団体が正式に設立または法人化されていて、参加対象となるエリアで正当な企業として見なされている場合であれば、社員数が 50 人以下の企業も参加対象になります。また、参加対象地域で 50 人以上の社員から成る大規模な企業も参加することはできますが、その場合は現金が含まれない賞のみへの参加となります。チャットボットに寄せられたボットは次のカテゴリで審査されます。

  • 顧客価値: ボットが問題を解決しユーザーに付加価値を提供
  • ボットのクオリティ: ボットがユーザーの問題を独自の方法で解決、オリジナルでクリエイティブそして他のボットソリューションと差をつけていること
  • ボットの実装: 開発者がいかに努力し優れたボットを構築し実行できるようにしたか検討一般的なフレーズで問いかけられたボットが、意図したように機能し質問を認識して応答できるかなど、ボットの機能について検討

 

賞について
優れたボットを作成した開発者に AWS チャットボットチャレンジ賞を授与します。1 等賞

  • 5,000 USD
  • AWS クレジット 2,500 USD 相当
  • AWS re:Invent のチケット 2 枚
  • Amazon Lex チームとのオンラインミーティング 30 分
  • 受賞者は AWS AI ブログで紹介されます
  • クールな賞品

2 等賞

  • 3,000 USD
  • AWS クレジット 1,500 USD 相当
  • AWS re:Invent のチケット 1 枚
  • Amazon Lex チームとのオンラインミーティング 30 分
  • 受賞者は AWS AI ブログで紹介されます
  • クールな賞品

3 等賞

  • 2,000 USD
  • AWS クレジット 1,000 USD 相当
  • Amazon Lex チームとのオンラインミーティング 30 分
  • 受賞者は AWS AI ブログで紹介されます
  • クールな賞品

チャレンジのタイムライン

  • エントリー開始日: 2017 年 4 月 19 日 午後 12:00 時 (PDT)
  • エントリー終了日: 2017 年 7 月 18 日 午後 5:00 時 (PDT)
  • 結果発表: 2017 年 8 月 11 日 午前 9:00 時 (PDT)

 

参加手続き
チャットボットチャレンジへの参加をご希望ですか?参加するには、次のチャレンジ上のルール参加資格をご確認ください。

  1. AWS チャットボットチャレンジに登録
  2. AWS チャットボットの Slack チャネルに登録
  3. AWS でアカウントを作成
  4. ドキュメントやリソースへのリンクを掲載しているリソースページにアクセス
  5. 作動中のボットを映したデモ動画を撮影ボットの概要と用途についてドキュメントを作成
  6. ボットのコードをホストする GitHub リポジトリへのリンク、すべてのデプロイファイル、ボットをテストする上で必要な手順など、審査とテスト実施に要するボットへのアクセス方法を提供
  7. AWSChatbot2017.Devpost.com2017 年 7 月 18 日 午後 5:00 時 (ET) までにボットを提出します。ボットのアクセス権限の共有、Github リポジトリ、デプロイファイルも併せて提出してください。

 

概要
Amazon Lex では、ウェブアプリケーションやモバイルアプリケーションで対話を構築することができます。また、IoT デバイスの管理、カスタマーサポートの提供、トランザクションの更新情報を連絡したり、DevOps ワークロードの実施 (ChatOps) を可能にするチャットボットを構築することも可能です。Amazon Lex には AWS LambdaAWS Mobile HubAmazon CloudWatch との統合が組み込まれています。そのため他の AWS サービスと簡単に統合することができ、AWS プラットフォームを使用してセキュリティ、モニタリング、ユーザー認証、ビジネスロジック、ストレージなどをチャットボットやアプリケーションで構築することができます。Slack、Facebook Messenger、Twilio SMS といったチャットサービスをサポートする Amazon Lex を活用して、音声やテキストのチャットボット機能を強化できます。Amazon LexAWS Lambda を使用してチャットボットや対話式インターフェイスを構築し AWS チャットボットチャレンジでクールな賞品を獲得してください。Amazon Lex と Amazon Lambda を使用して作成したボットに関する最近のリソースやオンラインテクトークもボット構築の参考になると思います。

AWS チャットボットチャレンジに関するご質問は aws-chatbot-challenge-2017@amazon.com 宛てにメールで英語で問い合わせるか、ディスカッションボードに質問を投稿してください。 では、頑張ってコード作成に励む皆さんの幸運を祈ります!

Tara

Amazon Rekognitionアップデート – 画像の節度

我々は昨年Amazon Rekognitionを発表し、私のブログポスト(Amazon Rekognition – 深層学習による画像検出と認識)でご紹介しました。その時ご説明した様に、このサービスは毎日数十億枚の画像を何年にも渡って解析を続けている我々のコンピュータビジョンチームによって作られました。

本日、我々はRekognitionに画像の節度の機能を追加致します。もしユーザにプロフィール写真やその他の画像をアップロードさせる様なウェブサイトやアプリケーションをお持ちでしたら、きっとこの新しいRekognitionの機能を気に入って頂けると思います。

Rekognitionはあなたのサイトに不適切な、いやらしさや露骨な内容を含む様な画像を特定することができます。節度ラベルは詳細なサブカテゴリを提供してくれるので、許容できるまたは不快と思う様な画像のフィルタリングを細かくチューニングすることができます。この機能を使って、画像共有サイト、フォーラム、デートアプリ、子供向けコンテンツプラットフォーム、eコマースのプラットフォームやマーケットプレイス等々を改善することができます。

この機能を使うためには、コードからDetectModerationLabrels関数を呼び出します。レスポンスの中には組み込み済みの分類の中からいくつかの節度ラベルが含まれます:

"ModerationLabels": [ 
  {
    "Confidence": 83.55088806152344, 
    "Name": "Suggestive",
    "ParentName": ""
   },
   {
    "Confidence": 83.55088806152344, 
    "Name": "Female Swimwear Or Underwear", 
    "ParentName": "Suggestive" 
   }
 ]

AWS Management Consoleではこの機能を実験するための画像節度デモを使うことができます:

画像の節度は今日からご利用可能です!

Jeff;

原文: Amazon Rekognition Update – Image Moderation (翻訳: SA岩永)