メインコンテンツに移動

テキスト読み上げジェネレーターとは?

テキスト読み上げジェネレーターは、人工知能 (AI) 技術を使用してデジタルテキストを音声ファイルに変換するソフトウェアです。現代のアプリケーションのユーザーインターフェイスは、タッチ操作から音声対話へと移行しており、ユーザーはアプリにタスクを実行するように求め、アプリは口頭で応答します。テキスト読み上げジェネレーターを使用すると、アプリ開発者は既存のテキストコンテンツを使用してアプリケーションに音声機能を自動的に追加できます。多数の本物の人間の声、アクセント、方言を模倣した音声ファイルを生成できる高品質の音声が内蔵されています。

テキスト読み上げジェネレーターのユースケースにはどのようなものがありますか?

テキスト読み上げジェネレーターのビジネスでのユースケースはいくつかあります。

複数の言語で音声を生成

テキスト読み上げジェネレーターを使用すると、組織は同じテキストの音声ファイルを異なる言語ですばやく作成できます。世界中のオーディエンスを抱える企業にとって、この柔軟性は多言語の顧客ベースをサポートするのに役立ちます。

自然な発話で顧客を引き付ける

テキスト読み上げツールを使用すると、顧客サービスライン用に自然でリアルな音声を作成できます。ロボットのような音声ではなく、自然に聞こえる音声が顧客を安心させ、インタラクティブなカスタマーサポートシステムをシームレスにナビゲートするのに役立ちます。

メディア用の費用対効果の高いオーディオファイルを作成

ビデオゲーム、アニメーション、またはその他の形式のメディアの音声ファイルを作成する場合でも、テキスト読み上げジェネレーターは、テキストに活気を与えるための高速でコスト効率の高い方法です。企業は、XML ベースのマークアップ言語である SSML を使用して、音声ファイルの強調、言い回し、イントネーションなどを直感的に調整できます。

能力の異なる学習者をサポート

テキスト読み上げジェネレーターソフトウェアのもう 1 つの用途は、失読症やその他の学習障害、視覚障害に悩む生徒を支援することです。あらゆるテキストを話し言葉に変換することで、教育者は学習資料を誰にでも使いやすい形にすることができます。学習障害や視覚障害のある生徒にとって、この支援ソフトウェアは学習体験を効率化します。

テキスト読み上げジェネレーターの仕組み

TTS によるテキストの変換は、言語分析、音声合成、人工知能モデルに依存する複数のステップからなるプロセスです。AI モデルは、ターゲット言語での対応する文字起こしを含む大規模な音声データセットでトレーニングされます。モデルアーキテクチャに応じて、さまざまなテキスト読み上げアプローチを使用できます。

連結型音声合成

この方法では、録音された人間の音声の小さなセグメントを組み合わせて音声を作成します。AI モデルは、そのトレーニング音声データを分析して、音素 (個々の音)、ダイフォン (音素の中央から次の音素の中央への音の遷移)、音節または単語を識別します。これらのコンポーネントを個々の書かれた単語にマッピングします。
テキストを入力すると、次の処理が行われます。

  • テキストを音声表現に変換します。
  • 一連のサウンドをカバーする最適な音声セグメントを選択します。
  • 個々のコンポーネントを連結または結合して、入力テキストに対応する完全な発話を形成します。

連結処理の際には、滑らかな音のつながりと自然な韻律 (イントネーション、リズム、強勢) が優先されます。

ニューラルテキスト読み上げ合成

ニューラルテキスト読み上げ (NTTS) は、連結合成をさらに進化させたものです。これには 2 つの主要なコンポーネントがあります。

シーケンスをスペクトログラムに変換するモデル

これは、テキスト音素シーケンスを音波シーケンスに変換するシーケンス間モデルです。スペクトログラムが生成されます。スペクトログラムは、時間の経過に伴って音のエネルギーがさまざまな周波数にどのように分布するかを視覚的に表したものです。シーケンス内のフローとコンテキストをキャプチャし、強勢、ピッチ、リズム、イントネーションなど、人間の耳に自然に聞こえるような音響特性を強調します。

ニューラルボコーダー

スペクトログラムが生成されると、出力はニューラルボコーダーに渡されます。ニューラルボコーダーは、スペクトログラムを実際の音声の波形に変換する特殊な深層学習モデルです。これにより、連結合成で実現できるものよりも滑らかでクリアで、よりリアルに聞こえる、高解像度の連続音声が生成されます。

生成テキスト読み上げ

生成テキスト読み上げでは、10 億個のパラメーターを持つ大規模言語モデルを使用して、感情表現が豊かで、コンテキストに応じた、会話型の音声を生成します。外出先でも学習が可能で、会話の進行に合わせて話し方を内容に合わせて調整したり、説得力のある、共感できる、または興奮した口調をシミュレートします。これは「テキストから音声への変換」から、「テキストから意味のある音声への変換」への転換を意味しており、AI によって生成された音声が本物の人間の音声に非常によく似たものになります。

生成 TTS の 2 段階のプロセスは次のように機能します。

テキスト読み上げのコード変換

トランスフォーマーコンポーネントは、未加工の入力テキストを中間音声コードに変換します。音声コードは、韻律 (リズム、強勢、イントネーション)、感情、言語的ニュアンスをエンコードするデータを学習してコンパクトに表現したものです。テキストの意味と意図を解釈し、トーン、強勢、さらには感情的な手がかりを理解できます。

音声コードから波形へのデコーダー

その後、音声コードは畳み込みデコーダーに渡され、未加工の音声波形に変換されます。このデコーダーは段階的に動作するため、音声をリアルタイムでストリーミングできます。低レイテンシーを実現し、リアルな AI 音声のためのスムーズで忠実度の高い音声出力を提供します。

テキスト読み上げジェネレーターはどのように実装できますか?

最新の音声読み上げジェネレーターでは、モデルをゼロからトレーニングする必要はありません。事前構築済みのテキスト読み上げジェネレーターを、API 経由のフルマネージド型クラウドサービスとして使用できます。テキスト読み上げジェネレーターを実装する際に従うべきプロセスは次のとおりです。

テキストを入力

音声ファイルに変換するテキスト全体をアップロードします。プレーンテキストをアップロードすることも、SSML 形式を使用することもできます。SSML では、ピッチ、音量、発話速度、発音などの側面を制御できるため、後者のオプションをお勧めします。

使用可能な音声を選択してください

利用可能な言語とアクセントのポートフォリオ (男性用と女性用のオプションあり) を参照して、テキストを読み上げたい音声を見つけます。音声合成タスクを起動するときに、この音声 ID を選択します。

音声出力を生成

音声ファイルを自分の好みの形式で受信します。リアルタイム音声をストリーミングしたり、生成された音声をファイル形式で保存して後で使用したりできます。

テキスト読み上げジェネレーターを選ぶとき、どのような機能を探すべきですか?

効果的なテキスト読み上げジェネレーターを選択する際には、いくつかの主要な機能と特徴を確認する必要があります。

使いやすさ

テキスト読み上げジェネレーターは、アプリケーションコードと簡単に統合できるように、柔軟な API と SDK を提供する必要があります。また、音声合成マークアップ言語 (SSML) などの標準化された技術をサポートするため、開発者は入力テキストに強調、イントネーション、言い回しのタグを追加できます。これにより、音声のコントロールが向上すると同時に、音声がよりリアルで自然になります。

高いカスタマイズ性

テキスト読み上げジェネレーターは、多数の言語、アクセント、および言語バリアントをサポートする必要があります。組織は、事業を営む業界や地域によって異なる語彙を使用する場合があります。テキスト読み上げジェネレーターでは、生成された音声の発音をカスタマイズできるようにする必要があります。また、特定のフレーズの最大実行時間を調整できるはずです。これらのパラメーターを調整することで、企業はテキスト読み上げ音声のサウンドをユースケースに最適な方法でカスタマイズできます。

最適化オプション

音声読み上げジェネレーターは、企業が帯域幅の使用量を改善しながら音質を最適化できるように、さまざまなサンプリングレートをサポートする必要があります。サンプリングレートを変更すると、ファイルの MP3、OGG、PCM のサイズが変更されます。

他のツールとの統合

音声読み上げソフトウェアをカスタマーサポートシステムと組み合わせて使用する場合は、コンタクトセンターのツールに統合できることが必須です。カスタマーエクスペリエンス管理を効率化するには、テキスト読み上げジェネレーターソフトウェアを他の顧客向けツールと統合する必要があります。

AWS はお客様のテキスト読み上げジェネレーターの要件をどのようにサポートできますか?

Amazon Polly はフルマネージド型の AI 音声生成サービスです。テキストファイルを Amazon Polly API に送信するだけで、音声ストリームがすぐに返されます。音声ストリームは、標準の音声ファイル形式で保存することも、直接再生することもできます。

Amazon Polly を使用すると、次のことが可能です。

  • テキストを何十種類ものリアルな音声と言語に変換して、あらゆるタイプのユーザーをサポートする。
  • 必要に応じて、出力の速度、ピッチ、または音量を調整する。
  • 追加料金なしで、生成された音声をキャッシュして再生する。
  • リアルタイムのテキスト読み上げ機能を高速かつ大規模に実装する。

また、Amazon Polly チームと協力して、組織専用の合成音声を作成し、独自の音声アイデンティティでブランドを差別化することもできます。Amazon Polly の音声 Matthew のデモの例を次に示します。

今すぐ無料アカウントを作成して、AWS テキスト読み上げジェネレーターの使用を開始しましょう。