投稿日: Apr 19, 2017

Amazon Polly でテキスト読み上げ出力にウィスパー音声効果を追加し、スピーチマークを使用して音声をビジュアルアニメーションと同期できるようになりました。ウィスパー効果を持つ音声を作成するには、SSML タグ「whispered」を使用して、読み上げるテキスト入力を、静かなささやき声になるようマークするだけです。このタグは Amazon Polly のテキスト読み上げポートフォリオの 47 のいずれの声にも適用できます。新しい「whispered」SSML タグの使用方法の詳細については、Amazon Polly のドキュメントをご覧ください。

さらに、Amazon Polly の新しいスピーチマーク機能では、音声出力と同期されたビジュアルアニメーションを構築できます。スピーチマークでは、文、単語、SSML タグ、ビゼーム (話された音に対応する顔の形を表現します) を含む、生成された音声のテキストの特定要素のオフセットに関する情報を備えたメタデータのストリームをリクエストできます。このメタデータストリームを、合成されたスピーチ音声ストリームと組み合わせることで、音声と同期した顔のアニメーションのアバターや、カラオケスタイルの単語の強調表示など、高度なビジュアル体験を提供するアプリケーションを構築できるようになりました。スピーチマークメタデータには別の API リクエストが必要であり、無料利用枠外となる場合は、音声出力と同じ文字単位の料金 (100 万文字あたり 4.00 USD) が発生します。詳細は Amazon Polly 料金表ページをご覧ください。音声の最初のリクエストから 12 か月間は、1 か月あたり 500 万文字が含まれた無料利用枠を利用できます。

詳細については Amazon Polly のスピーチマークに関するドキュメントを参照し、両方の新機能を Amazon Polly コンソールから今すぐお試しください。

Polly_NoPlayButton