亚马逊AWS官方博客

使用新的声道 SSML 功能修改 Amazon Polly 语音的音品

今天,Amazon Polly 团队很高兴地宣布推出一项新的语音合成标记语言 (SSML) 功能,该功能使得开发人员可以修改任意文本到语音转换 (TTS) 声音的音品。这是一项极具吸引力的功能,适合希望在 Amazon Polly 产品组合中自定义现有语音的客户,使得声音更加贴近在其使用案例中所塑造的特定角色。客户在场景中需要使用多个不同的声音时,该功能尤为有用,因为音品功能使得客户可以轻松地从可用的各个 Amazon Polly 语音自定义多个声音形象。

什么是音品?

音品 描述了人们所感受到的音色或音质,这与音高或音量无关。它经常用于音乐中,例如用于区分铜管乐器和弦乐器,或者用于描述中提琴与小提琴的细微差别。音品是一种可用于区分各种乐器的感知属性,即使这些乐器都在以相同的音量演奏相同的调子。与此类似,在具体的语音场景中,音品是一个声音与另一个声音的区别,即使这些声音具有相同的音高 (即其基本频率) 和音量 (振幅)。

每个人的声音都是独一无二的,这是由于多种因素造成的,包括人的生理机能以及发出声音的方式。每个人的声带、声道的大小和形状甚至整个身体的大小和形状,在决定其正常的语音品质方面都起到了重要的作用。有一些方法,例如个人控制舌头的位置、收紧或松弛肌肉或者施加气压,都可以改变语音的音高、音量和音品。经过专业训练的演员可以学习控制这些动作,甚至能够改变自己的声音来模仿他人的声音。

声道与音高

影响到语音音品的一项重要生理特征是声道,这是从声带顶部直到嘴唇边缘的一个空气腔体。有多块肌肉可以用于改变声道腔体的形状,可以让它变长、变短、变宽或变窄。这些改变的效果是导致放大或过滤掉语音。

音高 是一项听觉属性,影响感受到的声音是高还是低。在发出语音的具体过程中,音高由声带振动的频率决定。相比男性,女性通常具有较短的声带,振动频率较高 (每秒约 180 到 200 个周期)。平均而言,男性具有较长的声带,振动更慢 (每秒约 110 个周期)。与此类似,女性的平均声道长度比男性要短 (分别为约 14 厘米与约 17 厘米)。

声带长度和声道长度具有内在的关联,也就是说,其中一个更长,另一个也倾向于随之更长。利用音品功能,开发人员可以在保留控制音高能力的同时更改声道的大小。

声道和语音合成

使用 vocal-tract-length SSML 标记,您可以通过更改发言者的声道来控制输入语音的音品。这听上去像是更改了发言者的身体大小。当您增加 vocal-tract-length 时,发言者的声音听上去像是他们的个子更大。减小时,听上去像是个子更小。此标记可用于 Amazon Polly 文本到语音转换产品组合中的任何语音。

下面说明了如何修改发言者声道的长度:

  • +n% 或 -n%:按当前语音的相对百分比进行更改,来调整声道长度。例如,+4% 或 -2%。
  • n%:按当前语音的绝对百分比值来调整声道长度。例如,104% 或 98%。
  • 声道长度最多可以增加 100% 和减少 50%。
  • 要将声道长度重置为当前语音的默认值,请使用 <amazon:effect vocal-tract-length=“100%”>

下面的示例说明如何修改声道长度,使用的是 Joanna 的语音:

<speak>
This is my original voice, without any modifications. <amazon:effect vocal-tract-length="+15%"> Now, imagine that I am much bigger. </amazon:effect> <amazon:effect vocal-tract-length="-15%"> 
Or, perhaps you prefer my voice when I'm very small? </amazon:effect> You can also control the 
timbre of my voice by making more minor adjustments. <amazon:effect vocal-tract-length="+10%"> For example, by making me sound just a little bigger. </amazon:effect> <amazon:effect vocal-tract-length="-10%"> Or instead, making me sound only somewhat smaller. </amazon:effect> 
</speak> 
立即收听

语音由 Amazon Polly 提供

结合使用多个标记

您可以将 vocal-tract-length SSML 标记与 Amazon Polly 支持的任何其他 SSML 标记结合使用。由于声道长度和音高具有内在的紧密联系,通过将声道长度与音高 (通过应用 <prosody pitch> 标记) 一起更改,您可能会得到最佳效果。

<speak> 
The pitch and timbre of a person's voice are connected in human speech.
<amazon:effect vocal-tract-length="-15%"> If you are going to reduce the vocal tract length, </amazon:effect>
<amazon:effect vocal-tract-length="-15%"> <prosody pitch="+20%"> you might consider increasing the pitch as well. </prosody></amazon:effect>  <amazon:effect vocal-tract-length="+15%"> If instead you choose to lengthen the vocal tract, </amazon:effect> 
<amazon:effect vocal-tract-length="+15%"> <prosody pitch="-10%"> you might also want to lower the pitch. </prosody></amazon:effect>
</speak> 
立即收听

语音由 Amazon Polly 提供

我们鼓励您试验 vocal-tract-length 与 pitch 设置的不同组合,找出最适合您需求的语音质量。为了帮助您探索这一过程,我们向您提供了以下样本库,您可以下载并收听。您会发现,这些样本中包括了从非常逼真的人类语音到更接近动画角色的语音。

Vocal-Tract-Length 和 Pitch 样本库 (.ppt)

如果您有任何疑问,请在评论中留言。