亚马逊AWS官方博客

Amazon Polly 现已全面推出全新生成式引擎和三种语音

今天,我们宣布 Amazon Polly 生成式引擎正式发布,该引擎提供三种语音:说美式英语的 Ruth 和 Matthew,以及说英式英语的 Amy。新的生成式引擎使用公开和专有数据、各种语音、语言和风格进行了训练。它以最高精度呈现与上下文相关的韵律、停顿、拼写、方言特性、外来词发音等。

Amazon Polly 是一项机器学习(ML)服务,可将文本转换为逼真的语音,称为文字转语音(TTS)技术。现在,Amazon Polly 以数十种语言提供优质、自然且类似人声的语音,让您可以选择理想的语音并在多个地区或国家分发支持语音的应用程序。

借助 Amazon Polly,您可以选择各种语音选项,包括神经语音、长语音和生成式语音,这些语音可实现语音质量的突破性改进,并生成类似人声、表现力强且情感充沛的语音。您可以以 MP3 或 OGG 等标准格式存储语音输出,使用语音合成标记语言(SSML)标签调整语速、音高或音量,并以稳定的较短响应时间快速提供逼真的语音和对话式用户体验。

什么是全新生成式引擎?
Amazon Polly 现在支持四种语音引擎:标准语音、神经语音、长语音和生成式语音。

标准 TTS 语音于 2016 年推出,该引擎采用传统的串联合成法。这种方法将录制语音的音素串联起来,生成听起来非常自然的合成语音。然而,语音中不可避免的变化和用于分割波形的技术限制了语音的质量。

神经 TTS(NTTS)语音于 2019 年推出,该引擎使用序列到序列神经网络将音素序列转换为频谱图,然后使用神经声码器将频谱图转换为连续的音频信号。NTTS 生成的类似人声的语音质量甚至比其标准语音还要高。

长语音于 2023 年推出,该引擎采用尖端的深度学习 TTS 技术开发,旨在吸引听众关注更长的内容,例如新闻文章、培训材料或营销视频。

2024 年 2 月,Amazon 科学家推出了一款新的研究型 TTS 模型,名为具有应急功能的大型自适应可流式传输 TTS(BASE)。借助这项技术,Polly 生成式引擎成功创建了类似人声的合成生成式语音。您可以使用这些语音打造知识渊博的客户助理、虚拟培训师或经验丰富的营销人员形象。

以下是新的生成式语音:

您可以根据自己的应用程序和使用案例,从这些语音选项中进行选择。要了解有关生成式引擎的更多信息,请访问 AWS 文档中的生成式语音

开始使用生成式语音
您可以通过 AWS 管理控制台AWS 命令行界面(AWS CLI)或 AWS SDK 来使用这些新语音。

要开始使用,请访问美国(弗吉尼亚州北部)区域的 Amazon Polly 控制台,然后在左侧窗格中选择文本转语音菜单。如果您选择说美式英语的 Ruth 或 Matthew 的语音,或者说英式英语选择 Amy 的语音,则可以选择生成式引擎。输入您的文本,然后收听或下载生成的语音输出。

使用 CLI,可以列出使用全新生成式引擎的语音:

$ aws polly describe-voices --output json --region us-east-1 \
| jq -r '.Voices[] | select(.SupportedEngines | index("generative")) | .Name'

Matthew
Amy
Ruth

现在,运行 synthesize-seech CLI 命令,使用生成式引擎的参数和支持的语音 ID 将示例文本合成为音频文件(hello.mp3)。

$ aws polly synthesize-speech --output-format mp3 --region us-east-1 \
  --text "Hello.This is my first generative voices!" \
  --voice-id Matthew --engine generative hello.mp3

要了解更多使用 AWS 开发工具包的代码示例,请访问 AWS 文档中的代码和应用程序示例。您可以使用 JavaPython 代码示例、应用程序示例,例如使用 Java 或 Python 的 Web 应用程序,或 iOS 和安卓应用程序。

现已推出
全新的 Amazon Polly 生成式语音现已在美国东部(弗吉尼亚州北部)区域推出。您只需根据转换为语音的文本字符数按使用量付费。要了解更多信息,请访问我们的 Amazon Polly 定价页面。

立即在 Amazon Polly 控制台中试用生成式语音,并将反馈发送至 AWS re:Post for Amazon Polly 或通过您常用的 AWS Support 联系方式发送。

Channy

名称 地域 性别 语言 提示示例 NTTS 语音
生成式语音
Ruth en_US 英语(美国) Selma was lying on the ground halfway down the steps.'Selma! Selma!' we shouted in panic.
Matthew en_US 英语(美国) The guards were standing outside with some of our neighbours, listening to a transistor radio.'Any good news?' I asked.'No, we're listening to the names of people who were killed yesterday,' Bruno replied.
Amy en_GB 英语(英国) What are you looking at?' he said as he stood over me.They got off the bus and started searching the baggage compartment.The tension on the bus was like a dark, menacing cloud that hovered above us.