Amazon Web Services ブログ

Tag: Amazon Polly

Amazon Polly を使用した日本語テキスト読み上げの最適化

Amazon Polly は、高度な深層学習テクノロジーを使用して、29 の言語および 61 の音声で、人間のように聞こえる音声を合成するテキスト読み上げ( TTS )を提供するクラウドサービスです。Amazon Polly サービスは、自動コンタクトセンター、言語学習プラットフォーム、翻訳アプリ、および記事の読み上げなど、幅広い用途に対応する音声合成を使用するデジタル製品の開発において企業をサポートしています。 Amazon Polly は現在、2 つの日本語音声を提供しています。日本語は書記体系が複雑であるため、TTS システムに多くの課題をもたらします。 この投稿では、日本語が TTS に与える課題の概要、Amazon Polly がそれらの課題に対処する方法、および正しい発音を合成してカスタマーエクスペリエンスを最適化するために開発者が利用できる手法について説明します。 日本語はTTS にとって課題が多い言語 日本語の書記体系は、主に 3 つの書記法(漢字、平仮名、片仮名)で構成されており、多くの場合、これらの書記法は互換できます。たとえば、ロウソクを表す単語は、漢字(蝋燭)、平仮名(ろうそく)、または片仮名(ロウソク)で書くことができます。 漢字の読み方には音読みと訓読みがあり、さらに熟語の読みは、当て字の場合など、構成文字の読みから予想されるものとは異なる場合があります。これは、人名の場合に特に顕著であり、文字列からその名前の発音を常に予測できるとは限りません。 TTS システムの最初のステップの 1 つは、文を単語に分割することです。英語の場合、単語はスペースで分かれているためこの作業は簡単ですが、日本語の場合は一筋縄にはいきません。日本語は、間にスペースを入れずに単語をつなぎ合わせるため、単語と単語の境界を予測するモデルが必要になります。英語で、Applesonatable などの文字列を個々の単語に分解する場面を想像してください。言語的な知識を用いると、“Apple son at able” ではなく “Apples on a table” であることがわかります。これを自動的に行うにはモデルを学習する必要があります。 さらに、日本語の単語の発音は周囲の文脈に大きく依存します。同じ漢字の連なりの単語であっても、発音が異なり、文脈に応じて異なる意味を有することがあります (同形異義語)。これらはTTS にとって最大の課題です。例えば「東京都」を「とうきょうと」と読むと「現在の日本の首都」を指しますが、「ひがしきょうと」と読むと「京都の東部」を指します。また、「行った」を「いった」と読むと、「ある場所に出かけたこと」を意味しますが、「おこなった」と読むと、「何かを実行したこと」を意味します。 「東京都に行った」は、「東京/都/に/行った」と分割でき、この場合は「とうきょうとにいった」と読みますが、「東/京都/に/行った」の場合は「ひがしきょうとにいった」と読みます。これらの両方の場合において、「行った」は「いった」と読みますが、「東京都に行った事業の報告をする」という文脈では、2 番目の意味(「何かを実行したこと」)となり、「いった」ではなく「おこなった」と読みます。 さらに、日本語は高低アクセント言語であるため、アクセントの違いによって単語の意味に違いが生じる可能性があります。例として、雨(頭高型アクセント)と飴(平板型アクセント)があります(いずれも標準語・共通語のアクセント)。平仮名で書くと両方とも「あめ」ですが、アクセントの表記はありません。 これらの困難に対処するために、Amazon Polly は日本語のTTS システムでいくつかの機械学習(ML)モデルを採用しています。ML モデルは、周囲の単語およびその構文(文法)および形態(単語構造)情報に関する情報を使用して、単語の発音または高低アクセントおよび抑揚を予測します。これらのモデルは、言語のパターンを一般化するのに役立ち、合成されたことのない文の発音および抑揚を予測できます。 私たちは Amazon Polly のモデルの改善に継続的に取り組んでいますが、それでもサービスが正しい発音を予測できない場合があります。人間は、書かれた文脈が不十分でも、より広い文化的または状況的知識から文脈情報を推測し、筆記された文を理解できます。これらの情報の一部は現在の TTS モデルでは利用できず、または利用可能な情報はあってもモデルがそれを使って正確な予測を行うことができないこともあります。母国語話者でさえ、背景知識がないために正しい発音を予測するのに苦労する場合があります。これは、人名や地名で特によくあることで、たとえば、「愛」という名前は、「あい」、「めぐみ」、「まなみ」、「まな」など、少なくとも 28 通りの読み方があります。 これらの問題を回避するために、日本語テキストの発音をコントロールする方法がいくつかあります。 […]

Read More