Amazon Polly – 文章から音声へ、47の声と24の言語

この記事を書き始める時に、自分の子供の頃(TVを見てばかり過ごしていました)に戻って、1960年代や1970年代の有名なコンピュータやロボットの声を思い出してみました。たった数分で、HAL-9000、B9 (Lost in Space)、Star Trek Computerのオリジナル、そしてRosie (The Jetsonsより)が頭に浮かびました。当時は、機械的に生成された音声は、正確な音でそっけなく、人間の感情を欠いているものを多くの人が期待していました。

多くの年月を早送りして、現在はコンピュータが生成した音声には多くの優れたアプリケーションとユースケースが存在し、一般的にText-to-SpeechまたはTTSとして知られています。エンターテイメント、ゲーム、公的放送システム、Eラーニング、電話通信、補助アプリやデバイス、そして個人アシスタントはその始まりにすぎません。これらアプリケーションの多くは、接続性はとても良いがローカルの処理能力とストレージはそこそこしかない、モバイル環境にとてもよく合っています。

こんにちは、Amazon Polly

これらのユースケース(そしてあなたが思い描くそれ以外のもの)に対応するために、我々はAmazon Pollyを紹介します。これはクラウドサービスであり、自身のツールとアプリケーションを使って文章から本物そっくりの音声へ変換してくれます。Pollyは現時点で47の男性と女声の声で、24の言語(訳注: 日本語も含む)をサポートしており、追加の言語や声がロードマップにあります。

Pollyは音声生成の非常に挑戦的な側面に対応するために設計されています。例えば、”I live in Seattle”と”Live from New York”というフレーズにおける”live”という単語の異なる発音を考慮してくれます。Pollyはこの同形異義語が、同じ綴りだけど全く違う発音をされることを知っています。また、”St.”はどうでしょうか。言語や文脈によって、これは”street”か”saint”のいずれかの意味をもつ(そして発音される)でしょう。繰り返しですが、Pollyは何をすべきかを知っています。Pollyはさらに、単位、分数、略語、通貨、日付、時間、その他の音声の構成要素を洗練された、言語固有の方法で処理してくれます。

これを実現するために、我々はターゲットとなる言語のプロのネイティブスピーカー達と一緒に取り組みました。我々は各スピーカーに無数の代表的な単語とフレーズを選択した言語で発音してくれるように頼み、そしてその音声をdiphonesとして知られる音素に分解しました。

Pollyは質素な文章と本当に相性が良いです。単に文章を与えるだけで、Pollyが残りの面倒をみてくれ、音声ファイルかストリームとして、その文章を正確に、自然に、本物そっくりに表現してくれます。もっと洗練されたアプリケーションのために、SSML (Speech Sythesis Markup Language)を使ってPollyに追加の情報を与えることができます。例えば、もし文章が1つ以上の言語からの単語が含まれていたら(英語の中にいくつかのフランス語が混ざる様な)、SSMLを使ってこうやって発音するんだというフラグを立てることができます。

音声クリップをこの記事に埋め込むことができないので、Pollyコンソールを訪れてご自身で試してみて下さい。単純に文章を入力して、Listen to speechをクリックするだけです:

もしくは生成された音声をMP3ファイルで保存して、自身のアプリケーションで利用することもできます。

こちらは言語とリージョンのメニューを全て開いたところです:

技術的な詳細

コンソールでPollyを使うのもよいですが、きっともっと動的な何かをやってみたいと思ったでしょう。そうしたら、単純にSynthesizeSpeech API関数を文章かSSMLを付けて呼び出すだけです。出力をユーザーに直接ストリームすることもできますし、MP3かOggファイルを生成して必要に応じて再生することもできます。PollyはMP3かVorbis形式では高品質(最大22 kHzサンプリングレート)の音声を生成し、PCM形式では電話品質 (8 kHz)の音声を生成します。

また、 AWS Command Line Interface (CLI) を使って音声を生成することもできます。Bashの例:

$ aws polly synthesize-speech \
  --output-format mp3 --voice-id Joanna \
  --text "Hello my name is Joanna." \
  joanna.mp3

Pollyは全てのデータを暗号化して書き込み、SSL接続で通信も暗号化します。送信された文章は、送信者からは切り離して暗号化し最大6ヶ月保存され、Pollyを維持し改善するために利用されます。

価格と利用可能リージョン

Pollyは毎月500万文字までは無料で処理できます。それ以降は、1文字につき$0.000004かかり、大体生成される音声1分あたり$0.004となります。このブログ記事では約$0.018になりますし、Adventures of Huckleberry Finnの全文では約$2.40となります。

PollyはUS East (Northern Virginia)、US West (Oregon)、US East (Ohio)、そしてEurope (Ireland)で本日から利用可能です。どんなことを思いついたか、ぜひ教えて下さい！

— Jeff;

原文: Amazon Polly – Text to Speech in 47 Voices and 24 Languages (翻訳: SA岩永)

Amazon Web Services ブログ

Amazon Polly – 文章から音声へ、47の声と24の言語

こんにちは、Amazon Polly

技術的な詳細

価格と利用可能リージョン

お役立ちリンク

フォローお願いいたします