Amazon Web Services ブログ

SSML の新しい声道機能を使用して Amazon Polly の声の音色を変更

本日、Amazon Polly チームは、開発者がテキスト読み上げ (TTS) 音声の音色を変更できるようにする、新しい音声合成マークアップ言語 (SSML) 機能のリリースを発表します。これは、Amazon Polly ポートフォリオの既存の音をカスタマイズし、ユースケース用に探している特定のペルソナの音に近づけることを希望するお客様にとって魅力的な機能です。特に、多くの異なる音が関連するシナリオを持つお客様にとって有益です。音色機能により、利用可能な各 Amazon Polly の声から複数の音のペルソナを簡単にカスタマイズできるためです。

音色とは

音色は、ピッチや大きさとは独立した、音の知覚色または品質を表します。これは、よく音楽で金管楽器と弦楽器の違いを指摘したり、ビオラとバイオリンの微妙な区別を表したりする場合などに使用されます。音色は、各楽器が同じボリュームで同じ音符を演奏していても、それぞれを区別する知覚属性です。音声においても同様に、ピッチ (基本周波数) と大きさ (振幅) が同じでも、音色により 1 つの声が別の声から区別されます。

各個人の声の音は、その人物の生理機能や発声方法を含むさまざまな要素により、独自のものになります。個人の声帯、声道、そして体全体の大きさや形でさえも、その人物の標準的な音声品質を形作るうえで重要な役割を果たします。人の舌の位置、筋肉を緊張または弛緩させる方法、空気圧を加える方法は、声のピッチ、ボリューム、音色を変えるための技法の一部にすぎません。訓練を受けた物まね役者は、自分の声をまるで他人のように変えることができるレベルまで、これらの動きを制御する方法を会得しています。

声道とピッチ

音声の音色に貢献する重要な生理機能として、声道があります。これは声帯上部から唇の端までにおよぶ空気の通り道です。声道を長くしたり短くしたり、または広げたり狭めたりして、その形を変更できるようにするさまざまな筋肉があります。こうした変更の効果によって、音声が増幅または除去されて聞こえます。

ピッチは、音声を高く、または低く聞こえるようにする聴覚属性です。音声生成においては、ピッチは声帯の振動周波数によって決定されます。一般的に、女性の声帯は男性と比較して短く、より多く (1 秒あたり 180~200 回) 振動します。男性の声帯は平均的により長く、より少なく (1 秒あたり 最大 110 回) 振動します。同様に、平均的な声道の長さは、女性が男性よりも短くなっています (最大 14cm 対最大 17cm)。

声帯の長さと声道の長さとの間には自然な相関関係があり、どちらか 1 つが大きければ、もう一方も大きくなる傾向があります。音色機能では、開発者がピッチを制御する機能を維持しながら、声道の大きさを変更することができます。

声道と音声合成

vocal-tract-length SSML タグを使用して話者の声道の長さを変更することで、入力音声の音色を制御できるようになりました。これは話者の体の大きさを変更したかのように聞こえます。 vocal-tract-length を変更すると、話者の音声は体が大きくなったかのように聞こえます。このタグを小さくすると、小さい体のような音になります。このタグは Amazon Polly のテキスト読み上げポートフォリオのいずれの声にも使用できます。

話者の声道の長さを変更する方法は次のとおりです。

  • +n% または -n%: 現在の声で、相対割合 (%) の変更により声道の長さを調整します。たとえば、+4%、-2% などです。
  • n%: 現在の声の絶対割合値 (%) に声道の長さを調整します。たとえば、104%、98% などです。
  • 声道の長さは、最大 +100% まで長くし、最小 -50% まで短くできます。
  • 声道の長さを現在の声のデフォルト値にリセットするには、<amazon:effect vocal-tract-length=“100%”> を使用します。

次の例では、Mizuki の声を使用して、声道の長さを変更する方法を示します。

<speak>
これは変更のない私の元の声です。<amazon:effect vocal-tract-length="+15%"> ここで、私の体がとても大きくなったことを想像してみてください。</amazon:effect> <amazon:effect vocal-tract-length="-15%"> 
または、私がとても小さくなったときの声をお望みですか? </amazon:effect> より細かい調整により、私の
声の音色をさらに制御できます。<amazon:effect vocal-tract-length="+10%"> たとえば、音を少し大きくしてみます。</amazon:effect> <amazon:effect vocal-tract-length="-10%"> または、少しだけ音を小さくします。</amazon:effect> 
</speak> 
聞く

Amazon Polly の声

複数のタグの組み合わせ

vocal-tract-length SSML タグを、Amazon Polly でサポートされている他の SSML タグと組み合わせることができます。声道の長さとピッチは性質上緊密に関連しているため、声道の長さとピッチを (<prosody pitch> タグを適用して) 一緒に変更することで、最善の結果が得られる可能性があります。

<speak> 
人の声のピッチと音色は関連しています。
<amazon:effect vocal-tract-length="-15%"> 声帯の長さを小さくする場合は、</amazon:effect>
<amazon:effect vocal-tract-length="-15%"> <prosody pitch="+20%">ピッチを大きくすることも検討する必要があります。</prosody></amazon:effect>  <amazon:effect vocal-tract-length="+15%"> 代わりに声道を長くする場合は、</amazon:effect> 
<amazon:effect vocal-tract-length="+15%"> <prosody pitch="-10%">ピッチを低くすることも検討する必要があります。</prosody></amazon:effect>
</speak> 
聞く

Amazon Polly の声

ニーズに合った最適な声の品質を見つけるため、声道の長さとピッチの設定のさまざまな組み合わせを試すことをお勧めします。この作業を支援するため、ダウンロードして聞くことができる次のサンプルマトリックスを用意しました。これらのサンプルは、肉声のように読み上げる音声から、キャラクターのような音声までさまざまです。

Vocal-Tract-Length and Pitch Sample Matrix (.ppt)

ご質問があればコメント内に記入してください。