Amazon Polly - AI 音声ジェネレーター

数十の言語で高品質で自然な人間の声を展開

Amazon Polly とは何ですか?

Amazon Polly は、オンデマンドで音声を生成し、あらゆるテキストを音声ストリームに変換する、フルマネージドサービスです。深層学習テクノロジーを使用して、記事、ウェブページ、PDF ドキュメント、他のテキスト読み上げ (TTS) の変換を行います。Polly は、エンゲージメントとコンバージョンを実現する音声起動アプリケーションを構築できるように、幅広い言語で数十種類のリアルな音声を提供します。さまざまな地域や市場のユーザーの多様な言語、アクセシビリティ、学習ニーズに対応します。強力なニューラルネットワークと生成音声エンジンがバックグラウンドで機能し、音声を合成します。Amazon Polly API を既存のアプリケーションに統合して、すぐに音声対応にします。 

特徴

Amazon Polly は、以下に挙げる機能を含むさまざまな機能を備えています

リアルな音声

一貫して高速な応答時間で会話型のユーザーエクスペリエンスを提供

Amazon Polly の出力をリクエストする際、数十のリアルな音声とさまざまな言語から選択できます。各音声はネイティブスピーカーを使用して作成され、同じ言語内でも音声ごとにバリエーションがあります。ほとんどの言語には 1 つ以上の男性と女性の声が含まれているため、ユースケースに最適なものを選択できます。

橋の上で電話を操作し、黄色いジャケットを着ている女性

カスタマイズ可能な出力

必要に応じて音声出力をカスタマイズおよび制御する

Amazon Polly を使用すると、オーディエンスの注目を集めて維持するカスタムテキスト読み上げ出力を作成できます。頭字語、会社名、社内用語、または選択した他の単語の発音を変更するには、カスタム辞書を使用します。また、Amazon Polly の Speech Synthesis Markup Languages (SSML) タグを使用すると、強調、イントネーション、言い回し、スタイルを調整することもできます。ビジネスに最適な音声 AI 出力を生成します。

オフィスで働く男性の画像

生成 AI の力

わずかなコストで組み込みの生成 AI 機能にアクセス

Amazon Polly は、テキスト読み上げ変換のために選択できる複数の音声エンジンをサポートしています。エンジンは、10 億のパラメータトランスフォーマーをデプロイして、増分的かつストリーミング可能な態様で音声を生成します。この AI 音声ジェネレーターは、実際の人間の声に似ている、はっきりとした、感情に訴える、非常に口語的な合成音声を作成します。

新しいプロジェクトで協力する複数の若いビジネスパーソン

コントロールとセキュリティ

標準的なフォーマットで音声を安全に保存および再配信する

追加料金なしで、再配布、分析、アーカイブ、他のユースケースのために、テキスト読み上げ出力を MP3 や OGG などの標準的な音声ファイルに保存できます。必要に応じてファイルをキャッシュして、より高速に取得できます。コンテンツのセキュリティ、信頼性、プライバシーは、AWS の最優先事項です。Amazon Polly は、テキスト送信のコンテンツを保持しません。

PC で作業している人間の手の画像

ユースケース

RSS フィード、ウェブサイト、動画など、世界中のオーディエンスが利用するアプリケーションに音声を追加します。

音声生成の詳細

Amazon Polly の音声出力を保存および再生し、インタラクティブまたは自動化された音声応答システムを通じて発信者にプロンプトを表示します。

ニューラルテキスト読み上げ (TTS) の詳細

音声合成アプリケーション用の W3C 標準の XML ベースのマークアップ言語である SSML を使用して、言い回し、強調、イントネーション用の一般的な SSML タグをサポートします。

SSML の詳細