テキスト読み上げソフトウェアとは?
テキスト読み上げソフトウェアとは?
Web ページの音声読み上げからユーザーデータのリクエストまで、音声は現代のユーザーインターフェイスとして急速に標準になりつつあります。顧客は、操作するすべてのアプリケーションに音声機能を期待するようになっています。さらに、ヘルスケア、セールス、コンテンツ制作、カスタマーサービス、その他のアプリケーションにおけるテキスト読み上げのユースケースでは、顧客体験を向上させながら自動化を加速できます。このガイドでは、テキスト読み上げの機能と特長、そしてその使用開始方法について解説します。
Text-to-voice または Text-to-speech (TTS) ソフトウェアは、テキストから音声を合成することによってオーディオ「音声」を生成します。このソフトウェアは、膨大な量の人間の音声録音でトレーニングされたテキスト読み上げエンジンを搭載しています。音声データに含まれる音波形を解析して、書かれた言葉を話し言葉に変換します。
不自然な、ロボットのように聞こえる音声は、時代遅れの音声合成技術によるものです。生成 AI をベースにした最新のテキスト読み上げエンジンは、人間の音声とほとんど区別がつかない出力を生成します。生成された音声には、自然な間、さまざまなアクセント、異なる話す速度、そして人間の感情を反映した抑揚が含まれます。
音声読み上げソフトウェアのタイプ
選択する TTS ツールのタイプは、ユースケースによって異なります。開発者にとって、オールインワンのカスタマイズ可能な統合パッケージは、マルチアプリ、マルチ環境の開発に最適な選択肢です。
開発者は、セルフマネージドデプロイのオープンソースおよび商用 TTS ソフトウェア、または Amazon Polly のような完全に統合されたマネージドクラウドサービスから選択できます。これにより、既存のアプリケーションで音声をファーストクラスの機能として統合できるようになり、モバイルアプリや自動車からデバイスや家電に至るまで、まったく新しいカテゴリの音声対応製品にチャンスが生まれます。
Amazon Polly には、さまざまな AI モデルアーキテクチャに基づいた 4 つの音声エンジンが付属しており、さまざまなユースケースに適しています。Amazon Polly の音声を使用するには、コード内の API を使用してエンジン、音声合成操作、出力ファイル形式を選択するだけです。次に、エンジンが合成する入力テキストを指定します。Amazon Polly は、リクエストした形式で音声出力ファイルを生成します。これらのエンジンは、特定の音声やブランドの要件に合わせてさらにトレーニングすることもできます。
テキスト読み上げソフトウェアに求める機能とは?
Amazon Polly には、現代の音声開発に不可欠な以下のテキスト音声変換機能が含まれています。
音声の範囲
地域内のさまざまな言語、地域、性別、音声を選択できると、より包括的な製品開発スイートを実現できます。Amazon Polly は、数十種類の言語に対応しており、それぞれの国ごとのバリエーションやアクセントに加えて、男性と女性の声も選択可能です。
API ベースの統合
お使いの TTS ソフトウェアが完全に機能する API を備え、複数のプログラミング言語で利用できることを確認して、プロジェクト間での幅広い統合を実現してください。Amazon Polly には、Amazon Polly API とさまざまな言語固有の SDK が用意されています。また、AWS マネジメントコンソールと AWS コマンドラインインターフェイス (CLI) からもアクセスできます。使用方法にかかわらず、Amazon Polly のすべての機能を完全に制御できます。
正確な音声制御
Speech Synthesis Markup Language (SSML) は XML ベースのマークアップ言語で、音声の読み上げ方に関する詳細な情報を与えることができます。たとえば、ポーズや解釈 (例: 日付や頭字語)、ピッチ、話す速さ、音量、強調、フェードイン、その他の音声要素を含めることで、生成される音声をカスタマイズできます。SSML を使用すると、音声出力を完全に制御し、カスタマイズを他のシステムに移植できます。
Amazon Polly は、一般的なタグとカスタム Amazon SSML タグの両方をサポートしています。たとえば、ニュースキャスターのように声を出す機能などです。この柔軟性により、聞き手の注意を引きつけて離さない、より人間のような音声を作成することが可能になります。
同期アニメーション用のメタデータフック
ゲームやメディアなどの一部のアプリケーションでは、口の動きやカラオケ形式の言葉の後追いなど、音声の後に文字が続くアニメーションが必要です。多言語トレーニング動画では、複数の言語でタイミングを同期させることで、すべての言語で音声と動画を同時に揃えることができます。
このようなタイプのアプリケーションでは、開発者は特定の時間にどの音声要素が出現するかをタイムスタンプ付きの形式で示すメタデータが必要です。Amazon Polly では、このような追加のメタデータ、つまりスピーチマークを音声ファイルと一緒にリクエストできます。スピーチマークは、音声ファイルのタイムスタンプ、ビゼーム (単語を話すときの顔と口の位置)、および書かれたテキストを音声出力にリンクするその他の詳細などの情報を提供します。
カスタマイズ
テキスト読み上げソフトウェアを完全にカスタマイズして、最大限の柔軟性を実現する必要があります。たとえば、音声出力は、ファイルタイプ (例:) 、ファイルサイズ、データ品質など、さまざまな形式や設定に合わせてカスタマイズできる必要があります。ソフトウェアは、トレーニングデータに含まれないカスタムボキャブラリーを処理できる必要があります。
Amazon Polly は、すべての段階におけるテキスト読み上げのカスタマイズをサポートしています。
語彙
会社名、頭字語、外国語、新語の発音をカスタマイズしたカスタム辞書を作成できます。MP3 や WAV など、複数の音声形式の出力をリクエストできます。
出力形式
Amazon Polly は、自然に聞こえる音声でのドキュメントの読み上げなど、ロングフォームの音声もサポートしています。リアルタイムのユースケースでは、低帯域幅または低レイテンシーの接続用に連続音声ストリームを生成できます。
音声
また、Amazon Polly チームと協力して組織専用の音声を作成するカスタムエンゲージメントである Brand Voice も提供しています。他のアプリのように聞こえるのではなく、独自の音声ベースのブランドマークを作成して、目立たせることができます。
テキスト読み上げソフトウェアを使い始めるにはどうすればいいですか?
AWS のテキスト読み上げソフトウェアを使い始めるのは簡単です。このガイドでは、コンソールでの Amazon Polly の簡単な使い方デモを順を追って説明します。
まず、AWS マネジメントコンソールにサインインして、Amazon Polly コンソールを開きます。「Try Polly」をクリックして開始してください。これにより、テキスト音声変換ダイアログが表示されます。
ステップ 1—エンジンの選択
テキスト音声変換ダイアログでは、使用する音声エンジンを選択できます。Amazon Polly では現在 4 種類の音声エンジンから選択できます。
- スタンダードエンジンでは、音声生成に連結型音声合成方式を使用しています。
- ニューラルエンジンは、ニューラルネットワークとボコーダー方式を使用して、より自然に聞こえる音声を生成します。
- 生成エンジンは、さまざまな音声データでトレーニングされた 10 億のパラメーターモデルを使用して、より自然に聞こえる音声を実現します。
- ロングフォームエンジンは、長時間のナラティブスタイルのスピーチ用に開発されたもう 1 つの生成 AI テキスト音声変換エンジンです。
すべての AWS リージョンですべてのエンジンが利用できるわけではありません。
ステップ 2—言語を選択する
ボイスエンジンを選択したら、生成したい言語と、ドロップダウンメニューから男性または女性の音声を選択します。
各音声エンジンは、さまざまな言語と AI 音声をサポートします。たとえば、エンジンに「ニューラル」を選択した場合、Neural Text-to-Speech (NTTS) をサポートする言語と音声のみが使用可能になり、スタンダードとロングフォームの音声はすべて無効になります。
ステップ 3—テキストを音声に変換
入力テキストボックスで、デフォルトのテキストを自分で書いたテキスト入力に変更します。[聞く] ボタンを選択すると出力が読み上げられ、[ダウンロード] ボタンを選択すると MP3 ファイルがダウンロードされ、[S3 に保存] ボタンを選択すると話された言葉が Amazon Simple Storage Service に保存されます。
API を使用して Amazon Polly にアクセスする
Amazon Polly には、上記のようにコンソールから、またはアプリケーションコードの API からアクセスできます。Amazon Polly API では、リアルタイムの翻訳から字幕の生成、ビデオゲームやその他のアニメーションキャラクターの生き生きとした表現まで、さまざまなことができます。Amazon Polly API をコードで使用する方法の例については、GitHub にあるいくつかのサンプルを試してみてください。
AWS はお客様のテキスト読み上げソフトウェアのニーズをどのようにサポートできますか?
テキスト音声変換では、人間の発話ではなくテキストを使用して音声ベースの音声を作成できます。当初は視覚障害者のための支援技術として使用されていましたが、現在では、ブラウザ拡張機能からコールセンターやエンタープライズアプリケーションに至るまで、多くのアプリケーションや顧客とのやり取りで必要になりつつあります。Amazon Polly のようなマネージドサービスを使用すると、開発者はテキスト音声変換 API コールを通じて、現代的で人間のような音声エンジンをアプリケーションに簡単に統合できます。Amazon Polly の料金は、エンジンと処理された文字数に基づいており、個人使用向けの無料利用枠も含まれています。
Amazon Polly で話される音声は、アプリケーション開発で活用できる生成 AI サービスの 1 つにすぎません。アプリの迅速かつ強力な構築とスケーリングに役立つ、AWS のさまざまな AI ソリューションをご覧ください。