Amazon Web Services ブログ

Category: Amazon Polly

Whooshkaa と Amazon Polly: 視覚と聴覚を組み合わせてパブリッシングの世界を広げる

これは、Robert Loewenthal 氏 (Whooshkaa 社 CEO 兼創立者) のゲストブログ投稿です。 Whooshkaa は、オーストラリアを本拠地とするクリエイティブなオーディオオンデマンドのポッドキャストプラットフォームであり、パブリッシャーや広告主によるオーディエンス到達範囲の拡大を支援しています。当社は、常に新しい製品と手法を試しており、これらを組み合わせてお客様のための新しいソリューションを生み出しています。 Amazon Polly のテキスト読み上げ (TTS) 機能が好例です。当社のお客様の中には、すでに Amazon Polly を使用して既存の配信方法を拡張している大手のパブリッシャー、スポーツ団体、オーストラリア最大の通信会社があります。 これらの従来の情報プロバイダーは、今日の購読者が目だけでなく、耳を通した情報の取得に関心がある点に注目しています。Whooshkaa では、Amazon Polly TTS を使用することで、情報プロバイダーが 48 種類の音声と 24 言語で購読者に情報を提供できます。 今年初めに、オーストラリアを代表する全国紙 The Australian に Amazon Polly が導入されました。購読者は、運転やエクササイズなどで手や目を放せないときに Amazon Polly が読み上げる新聞の記事、レシピ、スポーツの試合結果などを聴くことができます。 Whooshkaa では、Amazon Polly を使用することで、特定のパートナーは選択した任意の新聞記事を数秒以内にポッドキャストエピソードに変換できます。当社が提供するツールでは、複数の記事をマージし、音声をカスタマイズしてアクセント、ピッチ、速度、音量を変更することもできます Whooshkaa の配信ネットワークは多様であり、ユーザーは様々な手段から選んでコンテンツを再生できます。代表的な手段はお気に入りのポッドキャストアプリを使うことです。Whooshkaa は Facebook と独自の提携をしているため、ポッドキャストエピソードをネイティブのオーディオプレイヤーで再生できます。当社のカスタマイズ可能なウェブプレイヤーは Twitter でもサポートされています。ただし、任意のウェブサイトに埋め込むことができます。 このテクノロジーが充実すれば、世界の地域と言語を問わず、パブリッシャーは新聞記事を自由に提供できるようになります。新聞記事は、読者の設定とニーズに応じてカスタマイズすることもできます。 当社はまた、オーストラリア最大の通信会社 Telstra およびナショナルラグビーリーグと提携し、接続されたスマートスピーカーを通じてユーザーのお気に入りのチームの試合結果をライブ配信しています。ユーザーがデバイスに尋ねるだけで、最新の結果が即座に読み上げられます。 当社の開発者 Christian Carlsson […]

Read More

Amazon Polly を使用して音声電話で AWS アカウントのセキュリティイベントに関するアラートを受信

AWS アカウントのセキュリティは極めて重要です。AWS アカウントのセキュリティに関するイベントの最新情報を把握しておくことが大切です。メールや SMS など、様々な方法で通知を受け取ることができますが、今回のブログでは Amazon Polly といった Amazon AI サービスや、Twilio のようなクラウドベースによるコミュニケーションプラットフォームを使用して音声アラートを受信する方法をご紹介します。 Amazon Polly はテキストを肉声のように読み上げるサービスで、スピーチが可能なアプリケーションの作成を可能にします。これは音声対応製品の全く新しいカテゴリです。Polly はディープラーニング技術を使用して、肉声のような音声を合成します。様々な言語を色々な音声で提供します。 移動が多いエンタープライズ IT セキュリティの社員にとって、AWS アカウントのセキュリティイベントのアラートを音声電話で聞くことができるのは実に便利です。セキュリティイベントは、その重要度や優先度を元にカスタムで定義できます。重要度や優先度のレベルが高いセキュリティイベントに関するアラートを、電話を介してシステムに送ることができます。 音声電話によるアラートを利用する上で、私は音声、ビデオ、メッセージングといった API 機能を提供する Twilio を使用しています。Twilio のプラットフォームを使用し、AWS アカウントでセキュリティイベントが発生した時に音声電話を掛ける API 呼び出しを発行するようにプログラムすることができます。Amazon Polly はテキストのアラートを音声メッセージに変換して電話で再生することができます。 ソリューションの概要 このソリューションは次のアーキテクチャ図で示した 2 つのシステムから構成されています。 イベント検出と通知システム テキストを音声に変換するシステム イベント検出と通知システムは、テキストから音声に変換するシステムから分離されます。他のユーザーが定義したイベント検出において後者が一般的なためです。このブログでは、テキストから音声に変換するシステムを取り上げ、過去のブログで紹介したイベント検出と通知システムをソリューションの例として使用します。

Read More

Amazon Polly が 9 つの対象 AWS リージョン、韓国語のサポート、新しいインド英語音声を追加

Amazon Polly は、テキストを生きた話し声に変換する AWS のサービスです。Amazon Polly に 9 つのリージョンが追加され、Polly が利用可能なリージョンの合計数が 14 となったことを発表いたします。さらに、韓国語サポートの開始、テキスト読み上げ機能ポートフォリオへのインド英語音声の追加を発表いたします。新しい韓国語の女性音声 Seoyeon、およびインド英語音声の Aditi をご紹介します。 Amazon Polly は、世界中のお客様に対して最大の安定性と最小のレイテンシーを提供するべく、以下の 14 の AWS リージョンで提供されます: アジアパシフィック (ムンバイ)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、南米 (サンパウロ)、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (北カリフォルニア)、および米国西部 (オレゴン)。 Amazon Polly は re:Invent 2016 で発表されて以来、最も多いリクエストの 1 つとして、追加言語のサポートがありました。お客様からの最も多くのリクエストがあった言語の 1 つが韓国語です。お客様の需要にお応えして、最初の韓国語音声 Seoyeon を発表いたします。

Read More

SSML の新しい声道機能を使用して Amazon Polly の声の音色を変更

本日、Amazon Polly チームは、開発者がテキスト読み上げ (TTS) 音声の音色を変更できるようにする、新しい音声合成マークアップ言語 (SSML) 機能のリリースを発表します。これは、Amazon Polly ポートフォリオの既存の音をカスタマイズし、ユースケース用に探している特定のペルソナの音に近づけることを希望するお客様にとって魅力的な機能です。特に、多くの異なる音が関連するシナリオを持つお客様にとって有益です。音色機能により、利用可能な各 Amazon Polly の声から複数の音のペルソナを簡単にカスタマイズできるためです。 音色とは 音色は、ピッチや大きさとは独立した、音の知覚色または品質を表します。これは、よく音楽で金管楽器と弦楽器の違いを指摘したり、ビオラとバイオリンの微妙な区別を表したりする場合などに使用されます。音色は、各楽器が同じボリュームで同じ音符を演奏していても、それぞれを区別する知覚属性です。音声においても同様に、ピッチ (基本周波数) と大きさ (振幅) が同じでも、音色により 1 つの声が別の声から区別されます。 各個人の声の音は、その人物の生理機能や発声方法を含むさまざまな要素により、独自のものになります。個人の声帯、声道、そして体全体の大きさや形でさえも、その人物の標準的な音声品質を形作るうえで重要な役割を果たします。人の舌の位置、筋肉を緊張または弛緩させる方法、空気圧を加える方法は、声のピッチ、ボリューム、音色を変えるための技法の一部にすぎません。訓練を受けた物まね役者は、自分の声をまるで他人のように変えることができるレベルまで、これらの動きを制御する方法を会得しています。 声道とピッチ 音声の音色に貢献する重要な生理機能として、声道があります。これは声帯上部から唇の端までにおよぶ空気の通り道です。声道を長くしたり短くしたり、または広げたり狭めたりして、その形を変更できるようにするさまざまな筋肉があります。こうした変更の効果によって、音声が増幅または除去されて聞こえます。 ピッチは、音声を高く、または低く聞こえるようにする聴覚属性です。音声生成においては、ピッチは声帯の振動周波数によって決定されます。一般的に、女性の声帯は男性と比較して短く、より多く (1 秒あたり 180~200 回) 振動します。男性の声帯は平均的により長く、より少なく (1 秒あたり 最大 110 回) 振動します。同様に、平均的な声道の長さは、女性が男性よりも短くなっています (最大 14cm 対最大 17cm)。 声帯の長さと声道の長さとの間には自然な相関関係があり、どちらか 1 つが大きければ、もう一方も大きくなる傾向があります。音色機能では、開発者がピッチを制御する機能を維持しながら、声道の大きさを変更することができます。 声道と音声合成 vocal-tract-length SSML タグを使用して話者の声道の長さを変更することで、入力音声の音色を制御できるようになりました。これは話者の体の大きさを変更したかのように聞こえます。 vocal-tract-length を変更すると、話者の音声は体が大きくなったかのように聞こえます。このタグを小さくすると、小さい体のような音になります。このタグは Amazon Polly のテキスト読み上げポートフォリオのいずれの声にも使用できます。 話者の声道の長さを変更する方法は次のとおりです。 +n% または -n%: 現在の声で、相対割合 (%) […]

Read More

Using Amazon Polly to Provide Real-Time Home Monitoring Alerts

このブログは、Y-cam Solutions のシニア開発者である Siva K. Syamala によるゲストブログポストです。Syamala 女史の言葉によると、「Y-cam は高性能なセキュリティビデオソリューションのプロバイダとして、すべての人々に簡単で扱いやすいスマートホームセキュリティを提供してくことをビジョンに掲げています」。 ホームセキュリティは、ホームオートメーションと IoT の活用においてとても重要な要素です。Y-cam Solutions Limited は Amazon をその基盤援助として、世界各地からスマートフォンによるモニタリングと制御ができるスマートセキュリティシステムを提供してきました。アラート、通知、そしてシステムをコントロールする方法を改善するために、Y-cam は Amazon Polly を使用して、ユーザーが会話によってセキュリティシステムと交信できる最新型の AI サービスを提供します。 当社サービスの作動方法 アラームが発生すると、Twilio を通じて音声によるカスタマーへの通知が行われます。呼び出しが確立されたら、Twilio は TwiML の指示に従って手順を実行し、Amazon Polly から取得する音声構成を使用してカスタマーにストリーミングを開始します。呼び出しの受信者は、携帯電話のキーパッド (DTMF コード) のボタンを押して回答します。DTMF コードによって、当社のサービスは指定されたアクションを実行し、Amazon Polly から取得する音声合成への TwiML 指示を返します。実際により近い会話を実現するには、Amazon Polly が素早く返答することがとても重要となります。遅延と待機時間は不満を引き起こし、受信者が電話を終了してしまう可能性を増大させます。 以下は、アラームが発生した場合のカスタマーへの通話を示すオーディオクリップのサンプルです。 アーキテクチャ   Amazon Polly の呼び出し 次の Java コードは、Amazon Polly から音声合成がリクエストされ、S3 バケットに保存されることを示しています。

Read More

Amazon Polly – スピーチマークとウィスパーを発表

私のように、あなたは好きな本を読んでもらうために図書館か書店に行くのが好きかもしれません。幼い頃、声の抑揚を変えて話に命を吹き込むことができる上手な物語作家が物語る本の話を聞くのが好きでした。物語作家がよく使うスライド付きの本のナレーションは、新しい本を読んだり、見つけたりする私の趣味を駆り立てました。 実際、私の読書に関する趣味が古典小説にいたるように、両親はテープレコーダー付きの小さなプロジェクターを姉妹と私に買ってくれました。このプロジェクターは話を物語り、次のスクリーンに進むべきタイミングをチャイム音で知らせ、本と映像の投影を同期しました。不運にも、私はその話に夢中になってしまったけれど、私たちが TTS のようなスピーチ技術を実現するのにどれくらいの位置にいるのかについて振り返り、考えることが私にとって重要でした。あらゆるスピーチ技術の進歩をもってしても、TTS を利用して、ゲームやビデオ、デジタル書籍の中でキャラクターのアニメーションやグラフィックスに同期した会話/音声を追加することはデベロッパーにとって今だチャレンジングなものでした。加えて、リアルな音声のピッチやテンポ、音圧の強さを模倣するために TTS を利用したソリューションの成功事例は非常に稀でした。 これを踏まえて、Amazon Polly がスピーチマークとウィスパーをサポート開始することを私は喜んで発表します。 Amazon Polly はテキストをリアルな音声に変換することを可能にする深層学習を利用したサービスです。サービスが提供する24の言語と47のリアルな音声から好きな音声を選択することが可能です。Polly を使って、音声に変換したいテキストを Polly の API に送信することができます。そして、API は再生、もしくは、MP3 のような共通オーディオファイルフォーマットに保存可能なオーディオストリームを返却します。 スピーチマークはデベロッパーが映像体験と会話の同期を可能とするメタデータです。この機能は、会話を顔のアニメーションと同期することや、カラオケスタイルの単語の強調表示を利用することで、リップシンクのようなシナリオを可能とします。スピーチマークメタデータは合成された音声を記述します。そして、スピーチマークメタデータを会話と一緒に使うことにより、音声ストリームが音、語句、文、そして SSML タグの始まりと終わりを決定することができます。新しいスピーチマークを利用することで、デベロッパーは今、リップシンクするアバターや視覚的に強調表示された読み下し体験を生み出すことができ、そして、キャラクターに声を与えるために Amazon Lumberyard のようなゲーミングエンジンに会話能力を統合することができます。 スピーチマークには4つの種類があります: 文: 入力テキストの1文要素を明示する 語句: 入力テキストの1単語要素を表す ビゼーム(Viseme): 話された音に対応する顔と口の位置を説明する Speech Synthesis Markup Language(SSML): SSML で表現された入力テキストから <mark> タグを記述する ウィスパーはピッチやテンポ、音圧と似たスピーチエフェクトの1つで、デベロッパーに TTS 出力を装飾可能とするもう一つの音声表現機能を提供します。ウィスパー機能はデベロッパーが <amazon:effect name=”whispered”> SSML タグを使って、ささやき声で話される言葉を持つのを可能とします。 これら2つの新しい機能について、見てみることにしましょう。   スピーチマークの利用 AWS 管理コンソールで Amazon Polly […]

Read More

Pollexy – Amazon Polly と Raspberry Pi で構築した特別なニーズをサポートする音声アシスタント

4 月は Autism Awareness month (自閉症啓発月間) です。米国では 68 人中に 1 人の子供が自閉症スペクトラム障害 (ASD) と診断されています (2014 年 CDC 調査)。 今回のブログでは AWS のシニア DevOps クラウドアーキテクトの Troy Larson が、息子の Calvin をサポートするために取り組んでいるプロジェクトについて紹介します。これまでにも、AWS がどのようにしてこれほどたくさんの様々なアイデアを出し合えるのか聞かれたことがあります。場合によっては、とても個人的な理由で大切な誰かの役に立ちたいという願いからアイデアが浮かぶこともあるのですが、この Pollexy はまさにその例です。まずは Pollexy に関する記事を読んでから、こちらの動画をご覧ください。 -Ana 背景 私はここ何年もの間、自閉症で会話の少ない 16 歳のティーンエイジャーの親であるコンピュータプログラマーとして、どうにかテクノロジーを使ってより安全で幸せかつ快適な暮らしをつくることができないかと常に模索していました。このプロジェクトのチャレンジとなる根源は、人との交流におけるすべての基本、つまりコミュニケーションです。息子の Calvin は口頭による指示には反応しますが、責任を持って発言することができません。彼のこれまでの人生において、私達が会話をしたことは一度もないのです。自分の部屋で一人で遊んでいることはできても、すべてのタスクや一連のタスクをこなすには、他の誰かが口頭で彼に促す必要があります。我が家には他にも子供がおり、家庭内で担当するその他の役割もありますから、Calvin にかかりっきりになることで家庭内の雰囲気に負の影響が出てしまうことも否めません。 事の発端 去年開催された re:Invent で Amazon Polly と のことを初めて耳にしてから、すぐにこうした技術を活用してどのように息子をサポートできるか考え始めました。息子は人による口頭指示に対しては問題なく対応することができますが、デジタル音声を理解することはできるのだろうか? という疑問がありました。そこで、ある土曜日に Raspberry Pi を息子の部屋に設定し、ドアを閉め、息子に気付かれないように家族と一緒に様子をうかがってみることにしました。Raspberry Pi に接続し、聞き慣れた西海岸の発音による Joanna […]

Read More