Amazon Polly は、テキストを生き生きとした音声に変換するサービスです。Polly には 47 種類の生き生きとした音声が用意されており、24 種類の言語に対応しているため、最適な音声を選択して、音声対応アプリケーションを多くの国で配信できます。Polly では、音声に変換するテキストを Polly API に送信するだけで、Polly からアプリケーションにオーディオストリームがすぐに返信されます。ストリームは直接再生することも、MP3 のような標準的な音声ファイル形式で保存することもできます。

Amazon Polly を試す

無料のアカウントにサインアップ
またはコンソールにサインイン

Amazon Polly の無料利用枠では、音声の最初のリクエストから 12 か月間は 1 か月あたり 500 万文字まで利用できます。

AWS 無料利用枠の詳細はこちら »

Amazon Polly 用の API を使用すれば、アプリケーションに音声合成を簡単に統合できます。音声に変換するテキストを Polly API に送信するだけで、Polly からアプリケーションにオーディオストリームがすぐに返信されます。アプリケーションで直接ストリーミングを開始することも、MP3 のような標準的な音声ファイル形式で保存することもできます。

サンプリングレート サンプルコード
"Hi. My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Amazon Polly には 47 種類の生き生きとした音声が用意されており、24 種類の言語に対応しているため、最適な音声を選択して、音声対応アプリケーションを多くの国で配信できます。

言語 女性
男性
英語 (オーストラリア) Nicole Russell
ポルトガル語 (ブラジル) Vitória Ricardo
フランス語 (カナダ) Chantal  
デンマーク語 Naja Mads
オランダ語 Lotte Ruben
フランス語 Céline Mathieu
ドイツ語 Marlene Hans
アイスランド語 Dóra Karl
英語 (インド) Raveena  
イタリア語 Carla Giorgio
日本語 Mizuki  
ノルウェー語 Liv  
ポーランド語 Ewa Jacek
  Maja Jan
ポルトガル語 (イベリア) Inês Cristiano
ルーマニア語 Carmen  
ロシア語 Tatyana Maxim
スペイン語 (カスティリヤ) Conchita Enrique
スウェーデン語 Astrid  
トルコ語 Filiz  
英語 (英国) Amy Brian
  Emma  
英語 (米国) Joanna Joey
  Salli Justin
  Kendra  
  Kimberly  
  Ivy  
スペイン語 (米国) Penélope Miguel
ウェールズ語 Gwyneth  
英語 (ウェールズ)   Geraint

Amazon Polly により、特定の文、単語、および音が発音された場合に情報を提供する追加のメタデータストリームを、簡単にリクエストできます。 このメタデータストリームを合成音声のオーディオストリームとともに使用して、音声と同期した顔のアニメーションや、カラオケのような単語のハイライトなどの拡張されたビジュアル機能によって、アプリケーションを構築できるようになりました。

スピーチマークの使用方法に関する詳細については、このドキュメントを参照してください。

Amazon Polly を使えば、アプリケーションからユーザーに、あらゆる種類の情報をほぼリアルタイムにストリーミングできます。また、アプリケーションの帯域幅と音声品質を最適化するために、さまざまなサンプリングレートを選択できます。Amazon Polly では、MP3、Vorbis、raw PCM といったオーディオストリーム形式がサポートされています。

サンプリングレート MP3 のサイズ OGG のサイズ
PCM のサイズ
22.05 kHz 聞く
19.02 kB 19.14 kB 該当なし
16.05 kHz 聞く 16.04 kB
16.35 kB
99.53 kB
8.00 kHz 聞く 13.26 kB 10.40 kB 49.76 kB

Amazon Polly では、W3C が定めた音声合成アプリケーション向け XML ベースマークアップ言語の標準フォーマットである Speech Synthesis Markup Language (SSML) に対応しており、言い回し、強調、イントネーションのための一般的な SSML タグがサポートされています。この柔軟性により、ユーザーの注意を引き、それを維持することのできる生き生きとした音声を作成できます。

詳細については、SSML タグに関する Amazon Polly のドキュメントをご覧ください。

サンプル SSML
This is how I speak normally. (なし)
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. I can speak in a higher pitched voice , or I can speak in a lower pitched voice
I can speak really slowly, or I can speak really fast. I can speak really slowly , or  I can speak really fast
I can also speak very loudly, or I can speak very quietly. I can also speak very loudly , or I can speak very quietly .
I can whisper. I have a secret to tell you, I will whisper it to you. ' I am not human. Can you believe it?

Amazon Polly では、AWS SDK に含まれるすべてのプログラミング言語 (Java、Node.js、.NET、PHP、Python、Ruby、Go、C++) および AWS Mobile SDK (iOS、Android) がサポートされています。Polly では HTTP API もサポートされているので、独自のアクセスレイヤーを実装することもできます。

Amazon Polly には、Polly API (およびさまざまな言語固有の SDK)、AWS マネジメントコンソール、AWS コマンドラインインターフェイス (CLI) を使用してアクセスできます。コンソール、API、CLI のいずれを使用しても、Polly の機能すべてを完全に制御できます。

Amazon Polly のカスタム辞書 (語彙機能) を使えば、会社名、略語、外国語、新語など、特定の単語 (フランス語以外の音声で発話する際の "ROTFL" や "C'est la vie" など) の発音を変更できます。このような発音をカスタマイズするには、辞書エントリの XML ファイルをアップロードします。例えば、"Nguyen" の発音をカスタマイズする場合、この XML を使用して音素を指定します。


            Nguyen
            nguyen
            NGUYEN
            "nu.jEn'