シンプルで使いやすい API

Amazon Polly 用の API を使用すれば、アプリケーションに音声合成を簡単に統合できます。音声に変換するテキストを Polly API に送信するだけで、Amazon Polly からアプリケーションにオーディオストリームがすぐに返信されます。アプリケーションで直接ストリーミングを開始することも、MP3 のような標準的な音声ファイル形式で保存することもできます。

サンプリングレート サンプルコード
"Hi.My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi.My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

さまざまな音声と言語を選択可能

Amazon Polly では、何十種類ものリアルな音声を多数の言語でサポートしているため、最適な音声を選択して、音声対応アプリケーションをさまざまな国で配信できます。

言語 女性
英語 (オーストラリア) Nicole Russell
ポルトガル語 (ブラジル) Vitória Ricardo
フランス語 (カナダ) Chantal  
デンマーク語 Naja Mads
オランダ語 Lotte Ruben
フランス語

Léa

Céline

Mathieu

 

ドイツ語 Vicki Hans
  Marlene  
ヒンディー語 Aditi
 
アイスランド語 Dóra Karl
英語 (インド)

Raveena

Aditi

 
イタリア語 Carla Giorgio
日本語 Mizuki Takumi
韓国語 Seoyeon  
中国標準語 Zhiyu  
ノルウェー語 Liv  
ポーランド語 Ewa Jacek
  Maja 1 月
ポルトガル語 (イベリア) Inês Cristiano
ルーマニア語 Carmen  
ロシア語 Tatyana Maxim
スペイン語 (カスティリヤ) Conchita Enrique
スウェーデン語 Astrid  
トルコ語 Filiz  
英語 (英国) Amy Brian
  Emma  
英語 (米国) Joanna Matthew
  Salli Justin
  Kendra Joey
  Kimberly  
  Ivy  
スペイン語 (米国) Penélope Miguel
ウェールズ語 Gwyneth  
英語 (ウェールズ)   Geraint

ビジュアルの精度向上のための音声同期

Amazon Polly により、特定の文、単語、および音が発音された場合に情報を提供する追加のメタデータストリームを、簡単にリクエストできます。このメタデータストリームを合成音声のオーディオストリームとともに使用して、音声と同期した顔のアニメーションや、カラオケのような単語のハイライトなどの拡張されたビジュアル機能によって、アプリケーションを構築できるようになりました。

スピーチマークの使用方法に関する詳細については、『ドキュメント」を参照してください。 

ストリーミング音声の最適化

Amazon Polly を使えば、アプリケーションからユーザーに、あらゆる種類の情報をほぼリアルタイムにストリーミングできます。また、さまざまなサンプリングレートから選択して、アプリケーション向けに帯域幅と音質を最適化できます。Amazon Polly では、MP3、Vorbis、raw PCM のオーディオストリーム形式がサポートされています。

サンプリングレート MP3 サイズ OGG のサイズ
PCM のサイズ
22.05 kHz 聞く
19.02 kB 19.14 kB 該当なし
16.05 kHz 聞く 16.04 kB
16.35 kB
99.53 kB
8.00 kHz 聞く 13.26 kB 10.40 kB 49.76 kB

音声の速さ、高さ、大きさの調整

Amazon Polly では、W3C が定めた音声合成アプリケーション向け XML ベースマークアップ言語の標準フォーマットである Speech Synthesis Markup Language (SSML) に対応しており、言い回し、強調、イントネーションのための一般的な SSML タグがサポートされています。この柔軟性により、ユーザーの注意を引き、それを維持することのできる生き生きとした音声を作成できます。

詳細については、「SSML タグに関する Amazon Polly のドキュメント」をご覧ください。

SSML
これが普段の話し方です (なし)
私はもっと高い声で話すことができます。または、もっと低い声で話すことができます <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
私はとてもゆっくり話すことができます。または、とても速く話すことができます <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
私はとても大きな声で話すこともできます。または、とても小さな声で話すことができます <speak>私は <prosody volume="x-loud">とても大きな声で</prosody>話すことができます。または、<prosody volume="x-soft">とても小さな声で</prosody>話すことができます。 </speak>
私は小声で話すことができます。 <speak>私には秘密があります。あなたにだけこっそり教えます。<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">私は人間ではありません。</prosody></prosody></amazon:effect>信じられますか?</speak>

音声の最大継続時間の調整

Amazon Polly を使用すれば、時間駆動の韻律と呼ばれる機能を使って定義する最大割り当て時間に基づいて、音声の速度を自動的に調整できます。これは多くのユースケース、特にローカライズに効果的です。

例えば、トレーニング用の動画に米国英語の音声が埋め込まれていて、この動画をドイツ語にローカライズしたいとします。そこで、Amazon Translate を使用してテキストを翻訳し、Polly で声を翻訳するとします。ローカライズされたドイツ語の音声が対応する動画のフレームに入ることが不可欠なため、ドイツ語の音声を米国英語の音声より長くすることはできません。この機能を使用すれば、吹き替え処理をさらに簡単に行うことができます。

プラットフォームとプログラミング言語のサポート

Amazon Polly では、AWS SDK (Java、Node.js、.NET、PHP、Python、Ruby、Go、C++) および AWS Mobile SDK (iOS/Android) に含まれるすべてのプログラミング言語がサポートされます。また、Polly では HTTP API もサポートされるため、独自のアクセスレイヤーを実装できます。

API、コンソール、コマンドラインを使用した音声合成

Amazon Polly には、Polly API (およびさまざまな言語固有の SDK)、AWS マネジメントコンソール、AWS コマンドラインインターフェイス (CLI) を使用してアクセスできます。コンソール、API、CLI のいずれを使用しても、Amazon Polly の機能すべてを完全に制御できます。

カスタム辞書

Amazon Polly のカスタム辞書 (語彙機能) を使えば、会社名、略語、外国語、新語など、特定の単語 (フランス語以外の音声で発話する際の "ROTFL" や "C'est la vie" など) の発音を変更できます。このような発音をカスタマイズするには、辞書エントリの XML ファイルをアップロードします。例えば、"Nguyen" の発音をカスタマイズする場合、この XML を使用して音素を指定します。

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Amazon Polly 料金の詳細

料金ページを見る
始める準備はできましたか?
サインアップ
ご不明な点がおありですか?
お問い合わせ