Amazon Polly を試す

無料のアカウントにサインアップ
またはコンソールにサインイン

Amazon Polly の無料利用枠では、音声の最初のリクエストから 12 か月間は 1 か月あたり 500 万文字まで利用できます。

AWS 無料利用枠の詳細はこちら »


Q: Amazon Polly とは何ですか?

Amazon Polly は、テキストを生きた話し声に変換するサービスです。Amazon Polly は、既存のアプリケーションに優れた会話機能を提供します。モバイルアプリケーションや自動車、各種デバイスやアプライアンスに対して、まったく新しいカテゴリの音声対応製品のチャンスを作り出します。 Amazon Polly では、何十種類ものリアルな音声を複数の言語でサポートしているため、最適な音声を選択して、音声対応アプリケーションを多くの地域で配信できます。Amazon Polly は使いやすく、音声に変換したいテキストを Amazon Polly API に送信するだけで、Amazon Polly がすぐにオーディオストリームをアプリケーションに返します。直接再生したり、MP3 などの標準的なオーディオファイル形式で保存したりできます。 Amazon Polly では、prosody などの音声合成マークアップ言語 (SSML) タグがサポートされているため、音声のレート、ピッチ、ボリュームを調整できます。 Amazon Polly は、大規模かつ低レイテンシーでこれらの利点をすべて実現できる安全なサービスです。 Amazon Polly で生成した音声はキャッシュすることができ、追加料金なしで再生できます。 サインアップすると、Amazon Polly では最初の 1 年間は、1 か月あたり 500 万文字を無料で変換できます。 Amazon Polly は、従量課金制で、リクエストごとのコストが低く、ストレージ制限もなく音声出力の再利用も可能であるため、どこでも音声合成を実現できるコスト効率に優れた方法です。

Q: Amazon Polly を使用する利点は何ですか?

Amazon Polly を使用すると、アプリケーションで高品質の音声出力を実現できます。コスト効率に優れたこのサービスは、応答時間が非常に短く、ほぼすべてのユースケースで利用できます。ストレージ制限はなく、生成された音声を再利用することもできます。

Q: どのような機能を利用できますか?

標準的な音声合成マークアップ言語 (SSML) を使用して、発音、ボリューム、ピッチ、話す速度など、音声のさまざまな面を制御できます。オーディオストリームに含まれるメタデータに基づいて、ユーザーに対してテキスト内の特定の単語や文が発生された場合に、これを検出できます。 これにより、開発者はアバターの口の動きなどのグラフィックのハイライトやアニメーションを、合成音声と同期することができます。 カスタム辞書を使用することで、"P!nk"、"ROTFL"、"C'est la vie" (フランス語以外で発声する場合) のような企業名、頭字語、外来語、新語など、特定の単語の発音を修正できます。

Q: スピーチマークとは何ですか?

スピーチマークは、入力テキストから生成された合成音声を補うように設計されています。 このメタデータを合成音声のオーディオストリームとともに使用して、お客様は音声と同期した顔のアニメーションや、カラオケのような単語のハイライトなどの拡張されたビジュアル機能によって、アプリケーションを提供できます。

Amazon Polly では、以下の 4 つの要素を使用してスピーチマークが生成されます。

1) 発声する入力テキスト内の文要素を示す Sentence

2) テキスト内の単語要素を示す Word

3) 発声される音声に対応する唇の形を説明する Viseme

4) テキストで使用される SSML 要素を説明する SSML

speech-mark-types パラメーターを指定して synthesize-speech メソッドを使用したときは、スピーチマークが JSON ストリームの形式で提供されます。具体的には、ニューラインで区切られたスタンドアロンの JSON オブジェクトのセットで、上記の 4 つの要素のうち 1 つから 4 つすべてが含まれます。 詳細については、Amazon Polly 開発者ガイドを参照してください。

Q: このサービスの最も一般的なユースケースは何ですか?

Amazon Polly では、アプリケーションにリアルな音声機能を追加することで、そのアプリケーションの実用性を向上させます。例えば、E ラーニングや教育の分野では、Amazon Polly のテキスト読み上げ (TTS) 機能を活用したアプリケーションを作成することで、文字を読めない人をサポートできます。Amazon Polly を使用すると、目の見えない人や視覚に障がいのある人のデジタルコンテンツ (電子書籍やニュースなど) の利用を支援できます。公共交通機関や産業用制御システムのお知らせ用システムに Amazon Polly を使用すると、通知や緊急連絡に利用できます。セットトップボックス、スマートウォッチ、タブレット、スマートフォン、IoT デバイスなど、Amazon Polly を利用して音声出力を提供できるデバイスにはさまざまなものがあります。電話ソリューションでは、Amazon Polly を使用して自動音声応答システムの音声を提供できます。クイズゲーム、アニメーション、アバター、ナレーション生成などのアプリケーションは、Amazon Polly のようなクラウドベースの TTS ソリューションにおける一般的なユースケースです。

Q: この製品は、AWS の他の製品とどのように連携しますか?

Amazon Lex と組み合わせると、開発者はアプリケーションに本格的な音声ユーザーインターフェイスを作成できます。 Amazon Connect 内で、Amazon Polly の音声はセルフサービスの、クラウドベースのコンタクトセンターサービスの作成に使用されます。 さらに、モバイルアプリケーションや IoT (モノのインターネット) ソリューションの開発者は、Amazon Polly を利用して、独自のシステムに音声出力を追加できます。

Q: デバイスで実行するソリューションではなくクラウドベースのテキスト読み上げソリューションを利用する利点は何ですか?

デバイスで実行するテキスト読み上げソリューションでは大量のコンピューティングリソースが必要です。特に、デバイスの CPU 能力、RAM、ディスクスペースが必要です。そのため、開発コストが高くなり、タブレットやスマートフォンなどのデバイスの電力消費も高くなります。これに対して、クラウドでテキスト読み上げ変換を実行すると、ローカルで必要なリソースが劇的に減ります。これにより、利用可能なすべての言語と音声を、実現可能な最高の品質でサポートできます。さらに、音声の修正と機能強化が行われるとき、すぐにすべてのエンドユーザーが利用できるようになり、デバイスで追加の更新を行う必要がありません。クラウドベースのテキスト読み上げ (TTS) はプラットフォームに依存しないため、開発にかかる時間と労力を最小化します。

Q: Amazon Polly の使用を開始するにはどうすればよいですか?

AWS アカウントにログインして、Amazon Polly コンソール (AWS コンソールの一部) に移動するだけです。コンソールを使用して任意のテキストを入力し、生成された音声を聞いたり、オーディオファイルとして保存したりできます。

Q: このサービスはどのリージョンで利用できますか?

Amazon Polly は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド) の AWS リージョンから世界中でアクセスできます。

Q: サポートされているプログラミング言語は何ですか?

Amazon Polly では、AWS SDK (Java、Node.js、.NET、PHP、Python、Ruby、Go、C++) および AWS Mobile SDK (iOS/Android) に含まれるすべてのプログラミング言語がサポートされます。また、Amazon Polly では HTTP API もサポートされるため、独自のアクセスレイヤーを実装できます。

Q: サポートされているオーディオ形式は何ですか?

Amazon Polly では、ほぼリアルタイムでユーザーにオーディオをストリーミングできます。また、さまざまなサンプリングレートから選択して、アプリケーション向けに帯域幅と音質を最適化できます。Amazon Polly では、MP3、Vorbis、raw PCM のオーディオストリーム形式がサポートされています。

Q: サポートされている言語は何ですか?

英語 (米国) フランス語 ポルトガル語 (ブラジル)
英語 (オーストラリア) フランス語 (カナダ) ルーマニア語
英語 (英国) ドイツ語 ロシア語
英語 (インド) アイスランド語 スペイン語 (カスティリヤ)
英語 (ウェールズ) イタリア語 スペイン語 (米国)
ウェールズ語 日本語 スウェーデン語
デンマーク語 ポーランド語 トルコ語
オランダ語 ポルトガル語
ノルウェー語

Q: Amazon Polly には AWS のサービス制限が適用されますか?

AWS リソースの可用性を確保し、請求に関する問題が新しいお客様に発生するリスクをできる限り抑えるため、AWS ではアカウントごとにサービス制限を設定しています。Amazon Polly を使用してアプリケーションで高品質の音声出力を利用する場合は、スロットリング、運用、音声合成マークアップ言語 (SSML) の使用などにデフォルトのサービス制限が適用されます。詳細については、Amazon Polly 開発者ガイドの Amazon Polly の制限をご覧ください。AWS Batch を使って効率的にバッチ処理を行うなど、Amazon Polly と AWS の他のサービスを組み合わせることにより、ほとんどの場合、Amazon Polly をサービス制限内で利用できます。


Q: Amazon Polly のコストはどれくらいですか?

最新の料金情報については、Amazon Polly の料金ページを参照してください。

Q: 何度も再生される静的な音声プロンプトを生成するためにこのサービスを使用できますか?

はい、できます。このサービスではこの点についての制限はありません。また、追加のコストも発生しません。

Q: 一斉通知システム (鉄道の駅など) で使用するコンテンツを生成するためにこのサービスを使用できますか?

はい、できます。このサービスではこの点についての制限はありません。また、追加のコストも発生しません。

Q: 合成する文字を 1,000 文字リクエストし、同じ 1,000 文字でスピーチマークをリクエストした場合、2,000 文字分課金されますか?

はい。 音声またはスピーチマーク用のすべてのリクエストが、サービスに送信した文字数に基づいて課金されます。

Q: Amazon Polly は AWS の無料利用枠で利用できますか?

はい。AWS 無料利用枠の一環として、Amazon Polly を無料で開始できます。サインアップしていただくと、Amazon Polly を初めて使用するお客様は、最初の 12 か月間は 1 か月あたり最大 500 万文字を無料で利用できます。

Q: 価格には税金が含まれていますか?

税金の詳細については、アマゾン ウェブ サービス税務ヘルプを参照してください。


Q: Amazon Polly ではサービスの向上を目的としてユーザーのコンテンツを使用しますか? Amazon Polly のプライバシーポリシーはどのようなものですか?

Amazon Polly では、サービスの品質向上のため、また、AWS およびその関連会社が提供する機械学習関連のその他の製品やサービスの品質向上のため、お客様のコンテンツを使用する場合があります。基盤となるテクノロジーの開発および Amazon Polly のカスタマーエクスペリエンス向上のためにお客様のコンテンツの一部を使用することは非常に重要です。お客様からの信頼、プライバシー、およびお客様のコンテンツのセキュリティが AWS の最優先事項です。また、AWS では、不正なアクセスやお客様のコンテンツが公開されることを防ぐように設計された、高度で信頼できる技術的および物理的な制御を行っています。さらに、AWS がデータを使用する場合はお客様との契約を確実に遵守します。詳細については、AWS データプライバシーのよくある質問を参照してください。