メインコンテンツに移動

テキスト音声変換とは何ですか?

テキスト音声変換テクノロジーは、コンピュータで生成された音声を使用してデジタルテキストを音声会話に変換するソフトウェアです。組織は、教育、お客様対応、支援テクノロジー、デジタルアバター、ゲーム、定型通話の自動化など、さまざまなユースケースでテキストを音声に変換したいと考えています。テキスト音声変換テクノロジーは、AI を使用して、記述されたテキストを、選択したアクセントや方言の自然な音声に変換します。AI 音声ジェネレーターは、間を取ったり感情を加えたり、話す速さを変えたりするなど、お客様と非常に自然な音声で会話できます。

テキスト音声変換にはどのような利点がありますか?

テキスト音声変換 (Text-to-talk または text-to-speech) を利用すると、組織は高品質の音声を使用してテキストコンテンツのナレーションを行い、オーディエンスと対話できます。以下では、このテクノロジーが企業にもたらす主な利点を紹介します。

アクセシビリティの向上

企業は、特に視覚障がいのある人々を対象に、コンテンツを制作する際にテキスト音声変換テクノロジーを活用することで、よりインクルーシブになることができます。テキスト音声変換ソフトウェアはコンテンツを音声ファイルに変換し、文字を読むことが困難な人でもそれを聞くことができるようにします。

パーソナライズされたエンゲージメント

テキスト音声変換ソフトウェアを使用すると、組織はリスナーが聞き取りたい口調、音声、スタイルに合わせて音声コンテンツをパーソナライズできます。企業は、自社のブランドに合わせた音声を使ってメッセージを伝えることで、強い印象を残すことができます。

学習活動のサポート

テキスト音声変換を使用すると、組織は e ラーニングプログラムをサポートする新しい方法を模索できます。文章コンテンツを音声形式に変換することで、学習者の関心が高まり、より効果的に学習できるようになります。

オーディエンスリーチの増加

一部のお客様は、オンラインでコンテンツにアクセスする際に、より多くの代替手段を求めています。  テキスト音声変換 (TTS) を使用すると、組織はブログやドキュメントよりもポッドキャストや動画を好む人々にアクセスしやすいコンテンツを提供できます。 

代わりの学習方法の提供

組織は、テキスト音声変換トレーニングアシスタントを使用して従業員の成長をより適切にサポートできます。何ページものテキストを読む代わりに、外出先でもコンテンツを聞いて、時間をより効率的に使うことができます。 

テキスト音声変換テクノロジーはどのように進化してきましたか?

テキスト音声変換は、物理学者のStephen Hawking博士が気管切開手術後に声を失ってから、口頭で会話するのを助ける手段として登場しました。最初のテキスト音声変換システムは、Dennis Klatt氏によって発明されました。このシステムは、この分野におけるその後の革新の基礎となっています。
数十年にわたっていくつかのテキスト音声変換テクノロジーがどのように発展してきたかを紹介します。

フォルマント合成

フォルマント合成とは、声道をモデル化して人間の声を模倣する音声技術です。これは、音声合成システムを実現した初期のテクノロジーの 1 つです。

連結型合成

連結型合成では、録音された複数の小さな音のブロックを組み合わせて音声を生成します。これは機械学習ベースのテキスト音声変換の開発であり、標準的な結果が得られますが、現在は深層学習と AI に取って代わられています。 

深層学習ベースの音声合成

深層学習は、人間の脳に着想を得た方法でコンピュータに意思決定を教える人工知能の手法です。科学者は、厳選された音声データを学習させることで、より自然に話す音声合成を作成できます。

生成音声ジェネレーター

生成音声ジェネレーターは、生成 AI を使用して学習、改善を行い、リアルな音声を生成します。深層学習と同様に、生成 AI も大量の音声データを使用してトレーニングされます。従来の音声合成手法と比較して、生成音声ジェネレーターは、方言や声調などのさまざまなニュアンスを含む音声を生成します。たとえば、Amazon Alexa には生成 AI が搭載されているため、よりスマートでパーソナライズされた、より人間らしい会話が可能になります。 

テキスト音声変換はどのように機能しますか?

テキスト音声変換ソフトウェアは、受け取ったテキストを解析し、人々が聞くことができる音声に変換します。ただし、音声の会話品質は、基盤となる音声生成テクノロジーによって異なります。テキスト音声変換テクノロジーには主に 4 つのタイプがあります。

標準エンジン

標準エンジンは、連結型音声合成を使用して自然な音声を生成します。データベースに保存されている録音された音声の一部を組み合わせて、話し言葉全体を生成します。生成された音声はクリアで正確ですが、自然ではなく機械が話しているように聞こえます。標準エンジンは IVR のコールメニューでよく使用されます。このメニューでは、録音された音声がオプションを入力するようにユーザーに求め、その後、通話を適切な部署に転送します。

ニューラルエンジン

標準エンジンと同様に、ニューラルエンジンも音声合成の基礎として音声ブロックを使用します。ただし、これらのブロックを連結しません。代わりに、異なる音声ブロックを組み合わせるとどのように聞こえるかを考慮して、連続的な音声波形を作成します。これにより、ニューラルエンジンは自然な音声を生成できます。

ロングフォームエンジン

深層学習テクノロジーを活用したロングフォームエンジンは、記事、本、新聞、その他のコンテンツを適切な感情の音声で読み上げることができます。このエンジンは、広範囲にわたる学習を通じて、人が声を出して読むのと同じような音声を生成します。このエンジンはテキストを受け取ると、意味を解釈し、適切な口調、間、アクセントを選択します。その結果、人間の感情を表現できるテキスト音声変換 AI ソフトウェアが実現しました。

生成エンジン

生成エンジンは、高度な AI アルゴリズムを使用して人間のような音声を生成します。機械学習エンジニアは、複数の言語、音声、スタイルの音声データを使用して生成エンジンをトレーニングします。音声を生成するために、AI ソフトウェアは記述されたテキストを音声コードに変換し、それを高品質の連続音声波形に変換します。生成エンジンは、デジタル上のやり取りをリアルタイムで観察して学習できるため、人間と同じように感情を込めたり、自己主張したり、口語的に話したりすることができます。 

テキスト音声変換テクノロジーを選択する際の主な考慮事項は何ですか?

多くの有料および無料のテキスト音声変換プラットフォームをオンラインで見つけることができます。ただし、すべてが柔軟な使用方法、カスタマイズ、その他のビジネスニーズをサポートするように設計されているわけではありません。以下では、TTS ソリューションを選択する際に考慮すべき点を紹介します。

音声と言語のオプション

一部の組織は、さまざまな地域のお客様にサービスを提供しています。そのため、現地の言語、方言、発声で音声を生成できるテキスト音声変換ソフトウェアが必要になります。

スピーチマーク

スピーチマークは、生成された音声の中で、発話フレーズの開始と終了を示す特別なインジケーターです。スピーチマークは、音声を AI アバターなどのビジュアルと組み合わせたい場合に便利です。これにより、アバターは顔の動きを合成された音声と同期させることができます。

音声の設定オプション

商用プロジェクトに取り組むときは、適切な音声を見つける前に、さまざまな音声バリエーションを試してみる必要があります。一部の音声ジェネレーターには、合成音声の聞こえ方を開発者が調整できる次のようなオプションが用意されています。

  • 話し方
  • 話す速さ
  • 音の高さ
  • 音の大きさ
  • 音声の長さ

API による音声合成

アプリケーションプログラミングインターフェイス (API) を使用すると、ソフトウェア開発者はテキスト音声変換を簡単に導入できます。音声合成器をゼロから構築する代わりに、API を使用してテキストをエンジンに渡し、生成された音声を受け取ります。

カスタム語彙

場合によっては、テキスト音声変換ソフトウェアが特定の単語を正しく認識または解釈しないことがあります。通常、これらの単語は、綴りや発音が標準的ではないか、特定の業界で使用される特殊な用語です。たとえば、「レシーバー」という用語は、電子機器の文脈で使用される場合、受信信号を検出するハードウェアを指します。カスタム語彙をサポートするテキスト音声変換を選択することで、これらの用語を追加でき、それによりソフトウェアはユーザーとより流暢にコミュニケーションできます。

独自のカスタマイズ

一部のユースケースでは、企業は生成される音声に好みの音声スタイルを反映させたい場合があります。これを行うには、ブランド固有のトーン、ニュアンス、スタイルなど、特定の要件に合わせて調整できるテキスト音声変換ソフトウェアが必要です。 

AWS はテキスト音声変換の要件をどのようにサポートできますか?

Amazon Polly を使用すると、さまざまな地域や言語でお客様と対話できるテキスト音声変換アプリケーションを構築できます。標準的な長文対応の生成 AI とニューラルエンジンを使用すると、必要に応じてあらゆる文書タイプを音声に変換できます。

Amazon Polly を使用すると、以下を行うことができます。

  • 言語、方言、性別にわたる数十種類の既製の音声から選択できます。
  • 会社名、外国語のフレーズ、業界用語など、特殊な語彙を追加したり変更したりできます。
  • 生成された音声をさまざまなサンプリングレートとフォーマットでリアルタイムにストリーミングできます。

企業は Amazon Polly を使用して、高価なテクノロジーに投資することなく、自然な音声でアプリケーションを拡張できます。

今すぐ無料の AWS アカウントを作成して、テキスト音声変換を始めましょう。