Amazon Web Services ブログ

Category: Artificial Intelligence

Amazon Polly – スピーチマークとウィスパーを発表

私のように、あなたは好きな本を読んでもらうために図書館か書店に行くのが好きかもしれません。幼い頃、声の抑揚を変えて話に命を吹き込むことができる上手な物語作家が物語る本の話を聞くのが好きでした。物語作家がよく使うスライド付きの本のナレーションは、新しい本を読んだり、見つけたりする私の趣味を駆り立てました。 実際、私の読書に関する趣味が古典小説にいたるように、両親はテープレコーダー付きの小さなプロジェクターを姉妹と私に買ってくれました。このプロジェクターは話を物語り、次のスクリーンに進むべきタイミングをチャイム音で知らせ、本と映像の投影を同期しました。不運にも、私はその話に夢中になってしまったけれど、私たちが TTS のようなスピーチ技術を実現するのにどれくらいの位置にいるのかについて振り返り、考えることが私にとって重要でした。あらゆるスピーチ技術の進歩をもってしても、TTS を利用して、ゲームやビデオ、デジタル書籍の中でキャラクターのアニメーションやグラフィックスに同期した会話/音声を追加することはデベロッパーにとって今だチャレンジングなものでした。加えて、リアルな音声のピッチやテンポ、音圧の強さを模倣するために TTS を利用したソリューションの成功事例は非常に稀でした。 これを踏まえて、Amazon Polly がスピーチマークとウィスパーをサポート開始することを私は喜んで発表します。 Amazon Polly はテキストをリアルな音声に変換することを可能にする深層学習を利用したサービスです。サービスが提供する24の言語と47のリアルな音声から好きな音声を選択することが可能です。Polly を使って、音声に変換したいテキストを Polly の API に送信することができます。そして、API は再生、もしくは、MP3 のような共通オーディオファイルフォーマットに保存可能なオーディオストリームを返却します。 スピーチマークはデベロッパーが映像体験と会話の同期を可能とするメタデータです。この機能は、会話を顔のアニメーションと同期することや、カラオケスタイルの単語の強調表示を利用することで、リップシンクのようなシナリオを可能とします。スピーチマークメタデータは合成された音声を記述します。そして、スピーチマークメタデータを会話と一緒に使うことにより、音声ストリームが音、語句、文、そして SSML タグの始まりと終わりを決定することができます。新しいスピーチマークを利用することで、デベロッパーは今、リップシンクするアバターや視覚的に強調表示された読み下し体験を生み出すことができ、そして、キャラクターに声を与えるために Amazon Lumberyard のようなゲーミングエンジンに会話能力を統合することができます。 スピーチマークには4つの種類があります: 文: 入力テキストの1文要素を明示する 語句: 入力テキストの1単語要素を表す ビゼーム(Viseme): 話された音に対応する顔と口の位置を説明する Speech Synthesis Markup Language(SSML): SSML で表現された入力テキストから <mark> タグを記述する ウィスパーはピッチやテンポ、音圧と似たスピーチエフェクトの1つで、デベロッパーに TTS 出力を装飾可能とするもう一つの音声表現機能を提供します。ウィスパー機能はデベロッパーが <amazon:effect name=”whispered”> SSML タグを使って、ささやき声で話される言葉を持つのを可能とします。 これら2つの新しい機能について、見てみることにしましょう。   スピーチマークの利用 AWS 管理コンソールで Amazon Polly […]

Read More

AWS チャットボットチャレンジを開催 – Amazon Lex と AWS Lambda を使用した対話式でインテリジェントなチャットボットを作成

AWS 2017 サンフランシスコサミットのリリース内容やお知らせを細かくチェックしていたユーザーなら Amazon Lex サービスの一般提供が開始し、今すぐご利用いただけるようになったことをすでにご存知かもしれません。Amazon Lex は、開発者が音声やテキストを使用するアプリケーションで対話式のインターフェイス構築を可能にするフルマネージド型の AI サービスです。Lex は Amazon Alexa を使用する Amazon Echo のようなデバイスと同じディープラーニングを使用しています。Amazon Lex のリリースにより、開発者は独自のアプリケーションで違和感のないユーザーエクスペリエンスやリアルな会話のやり取りを構築できます。Amazon Lex は Slack、Facebook Messenger、Twilio SMS に対応しています。こうした人気のチャットサービスを使用し、ユーザーの音声やテキストのチャットボットを簡単に発行することができます。Amazon Lex サービスを試し、独自のアプリケーションに優れた機能を追加するには、今が絶好のチャンスです。 さて、いよいよお知らせです。 この度 AWS チャットボットチャレンジを開催することになりました! AWS チャットボットチャレンジは、問題を解決したり今後のユーザーに向けた付加価値を追加する、他に例のないユニークなチャットボットを構築するチャンスです。AWS チャットボットチャレンジはアマゾン ウェブ サービスと Slack の協力により実現しました。 チャレンジ このチャレンジに参加する開発者は、Amazon Lex を使用して自然な対話式のチャットボットを構築し、バックエンドでロジックプロセスやデータプロセスを実行するために AWS Lambda と Lex の統合を利用することになります。対象となるボットは新しいものでも既存のものでも構いませんが、既存のボットの場合はこのチャレンジのエントリー期間中に Amazon Lex と AWS Lambda を使用できるように更新する必要があります。 ソリューション構築時の制限は、あなたの想像力のみです。それでは、以下にボット作成やデプロイにおける創作力をサポートするアドバイスをいくつかご紹介します。チャットボットをよりユニークにするためのアドバイスについては次をご覧ください。 Slack、Facebook […]

Read More

Amazon Rekognitionアップデート – 画像の節度

我々は昨年を発表し、私のブログポスト(Amazon Rekognition – 深層学習による画像検出と認識)でご紹介しました。その時ご説明した様に、このサービスは毎日数十億枚の画像を何年にも渡って解析を続けている我々のコンピュータビジョンチームによって作られました。 本日、我々はRekognitionに画像の節度の機能を追加致します。もしユーザにプロフィール写真やその他の画像をアップロードさせる様なウェブサイトやアプリケーションをお持ちでしたら、きっとこの新しいRekognitionの機能を気に入って頂けると思います。 Rekognitionはあなたのサイトに不適切な、いやらしさや露骨な内容を含む様な画像を特定することができます。節度ラベルは詳細なサブカテゴリを提供してくれるので、許容できるまたは不快と思う様な画像のフィルタリングを細かくチューニングすることができます。この機能を使って、画像共有サイト、フォーラム、デートアプリ、子供向けコンテンツプラットフォーム、eコマースのプラットフォームやマーケットプレイス等々を改善することができます。 この機能を使うためには、コードからDetectModerationLabrels関数を呼び出します。レスポンスの中には組み込み済みの分類の中からいくつかの節度ラベルが含まれます: “ModerationLabels”: [ { “Confidence”: 83.55088806152344, “Name”: “Suggestive”, “ParentName”: “” }, { “Confidence”: 83.55088806152344, “Name”: “Female Swimwear Or Underwear”, “ParentName”: “Suggestive” } ] ではこの機能を実験するための画像節度デモを使うことができます: 画像の節度は今日からご利用可能です! —Jeff; 原文: Amazon Rekognition Update – Image Moderation (翻訳: SA岩永)  

Read More

Pollexy – Amazon Polly と Raspberry Pi で構築した特別なニーズをサポートする音声アシスタント

4 月は Autism Awareness month (自閉症啓発月間) です。米国では 68 人中に 1 人の子供が自閉症スペクトラム障害 (ASD) と診断されています (2014 年 CDC 調査)。 今回のブログでは AWS のシニア DevOps クラウドアーキテクトの Troy Larson が、息子の Calvin をサポートするために取り組んでいるプロジェクトについて紹介します。これまでにも、AWS がどのようにしてこれほどたくさんの様々なアイデアを出し合えるのか聞かれたことがあります。場合によっては、とても個人的な理由で大切な誰かの役に立ちたいという願いからアイデアが浮かぶこともあるのですが、この Pollexy はまさにその例です。まずは Pollexy に関する記事を読んでから、こちらの動画をご覧ください。 -Ana 背景 私はここ何年もの間、自閉症で会話の少ない 16 歳のティーンエイジャーの親であるコンピュータプログラマーとして、どうにかテクノロジーを使ってより安全で幸せかつ快適な暮らしをつくることができないかと常に模索していました。このプロジェクトのチャレンジとなる根源は、人との交流におけるすべての基本、つまりコミュニケーションです。息子の Calvin は口頭による指示には反応しますが、責任を持って発言することができません。彼のこれまでの人生において、私達が会話をしたことは一度もないのです。自分の部屋で一人で遊んでいることはできても、すべてのタスクや一連のタスクをこなすには、他の誰かが口頭で彼に促す必要があります。我が家には他にも子供がおり、家庭内で担当するその他の役割もありますから、Calvin にかかりっきりになることで家庭内の雰囲気に負の影響が出てしまうことも否めません。 事の発端 去年開催された re:Invent で Amazon Polly と のことを初めて耳にしてから、すぐにこうした技術を活用してどのように息子をサポートできるか考え始めました。息子は人による口頭指示に対しては問題なく対応することができますが、デジタル音声を理解することはできるのだろうか? という疑問がありました。そこで、ある土曜日に Raspberry Pi を息子の部屋に設定し、ドアを閉め、息子に気付かれないように家族と一緒に様子をうかがってみることにしました。Raspberry Pi に接続し、聞き慣れた西海岸の発音による Joanna […]

Read More

Amazon Rekognitionを使ってMacOS Finderのタグ機能を更に良いものにしよう

こちらは、AWSのGlobal Startup EvangelistであるMackenzie Kosut(@mkosut)によってAWS Startups Blogに投稿された「Using Amazon Rekognition to enhance MacOS Finder Tags」の翻訳記事です。 日曜の朝、私はラップトップにある何百枚もの写真が保存されている大きなフォルダを眺めていました。サムネイルは素晴らしいのですが、私が本当にやりたかったことは、簡単にそしてクイックに”崖”の写真を探し当てることでした。 OS X Mavericksからタグ機能が使えるようになり、Finderウインドウでタグ付けされたファイルを探せるようになっています。そこで、私はラップトップからAmazon Rekognitionに写真を送信し、それぞれの写真についてAmazon RekognitionのDeep Learningベースの画像認識を行い、そして、識別情報をタグとしてファイルに登録し、Finderでそのファイルを開けるようにする、という一連の処理に関してどの程度の手間がかかるのか知りたいと思っていました。 これが実現できると、FinderもしくはSpotlight(MacOSの検索機能)において、Tag:<term>という形で検索できるようになります。例えば、全ての猫(cat)の写真を引き当てたい場合は Tag:Cat と入力することで結果を得ることが出来る、というものです。 writexattrsファンクションのコードスニペットをオンラインで見つけた後、そうこうするうちに、Amazon Rekognitionに写真を送り、Tagの結果を得て、それらをファイルに登録することが出来てしまいました。約30分の間に50行ほどのコードを書いて、それが実際に動作するプロトタイプになりました。 コードは https://github.com/mkosut/rekognition_osx_tagfile にありますので、是非ご覧になさってください。 多数の写真がある大きなフォルダーについても正しく動作しました。そして、パフォーマンス向上のため、アップロードの前にイメージのリサイズを行い、プロセスをマルチスレッドで行えるようなpull requestをチームの中のメンバーが送ってくれました。 私が本当に欲しかったものは、画像がフォルダに追加された時に自動でタグ付けされる、というものでした。私はそのためにMacOS Automatorを活用しました。Automatorでは使い勝手の良い簡単なインターフェースを通じてフォルダーのアクティビティをウォッチすることができ、新しいファイルが書き込まれたらアクションを走らせることができます。これはAmazon S3にファイルのファイルが変更された時にAWS Lambdaの処理をいつでも自動的に稼働させるものと似ていると言えるでしょう。 このワークフローは”TagMe”フォルダーに新しいファイルが書き込まれるのを待ち受け、それらを rek_osx_tagfile.py スクリプトにファイル名をパラメーターとして渡して起動します。 それでは最終テストです: 成功しました! このhackを通して私は大きな気付きを得ました。それは、AWSはどんなことにも活用できるケーパビリティを持っているということです。ここには非力な1台のラップトップしかありませんが、私はAmazon Rekognitionの巨大なDeep Learning基盤を用いることで大量の写真の解析をすることができましたし、何より少ないコードでそれを実現できました!   翻訳:篠原英治(原文:「Using Amazon Rekognition to enhance MacOS Finder Tags」 – https://aws.amazon.com/blogs/startups/using-amazon-rekognition-to-enhance-macos-finder-tags/)

Read More

Amazon Rekognition の更新 – 顔の推定年齢範囲

は当社の人工知能サービスの 1 つです。Rekognition では、画像内の物体、シーン、および顔を検出できるほか、顔を検出して比較することができます。Rekognition は、バックグラウンドで詳細な神経ネットワークモデルを使用して、毎日数十億の画像を分析しています (詳細については、「Amazon Rekognition – ディープラーニングによる画像の検出と認識」を参照してください)。 は、画像で見つけた顔ごとに属性の配列を返します。本日、推定年齢範囲という新しい属性を追加します。この値は年数で表され、整数のペアとして返されます。年齢範囲は重なる場合があります。つまり、5 歳の顔の推定範囲は 4~6 歳になるが、6 歳の顔の推定範囲は 4~8 歳となる場合があります。この新しい属性を使用すれば、公共安全アプリケーションの増強、人口動態の収集、必要な期間を対象とした写真の整理が可能になります。この新機能を少し楽しむため (私はこの投稿を金曜日の午後に書いています)、自分の写真アーカイブを掘り起こして、Rekognition に私の年齢を推定させてみました。答えは次のようになりました。最初から始めましょう。この写真では、おそらく私は 2 歳でした。 この写真は、1966 年の春に私の祖母の家で撮られたものです。 私は 6 歳でした。Rekognition は私の年齢を 6~13 歳と推定しました。 2003 年の私の最初の公式な Amazon PR 写真では、私は 43 歳でした。 これには 17 年の範囲があり、私の実年齢はちょうどその中間でした。そして私の最新の (2015 年後半) の PR 写真 (55 歳) です。 これもまたかなり幅がありますが、私の年齢はちょうど中間です。一般的に、顔の実年齢は Rekognition で示された年齢の範囲に収まりますが、正確に中間になることを当てにしないでください。この機能は提供が開始されており、今すぐ使い始めることができます。

Read More