跳至主要内容

什么是文本转语音?

文本转语音技术是一种软件,可将数字文本转换为语音对话,使用计算机生成的声音进行播放。组织希望将文本转换为语音,以满足多种使用案例的需求,包括教育、客户互动、辅助技术、数字虚拟形象、游戏、日常电话呼叫自动化等领域。文本转语音技术利用人工智能,将书面文本转化为自然流畅的语音,并使用您选择的口音和方言。人工智能语音生成器可与客户进行极自然的语音对话,包括添加停顿、情感表达以及语速变化。

文本转语音有哪些优势?

文本转语音使组织能够通过高质量的语音讲述文本内容,从而与受众进行互动。下面,我们将分享这项技术可为企业提供的关键优势。

提高可访问性

企业可通过在内容制作中运用文本转语音技术,提升包容性,尤其是能惠及视障人士。文本转语音软件将内容转化为音频文件,阅读困难者可通过聆听获取信息。

个性化互动

借助文本转语音软件,组织可根据听众偏好的语调、语音和风格个性化音频内容。企业可通过自定义品牌之声以传递信息,从而给大众留下深刻印象。

支持学习活动

文本转语音技术使组织能够探索支持电子学习计划的新途径。通过将书面内容转化为可听形式,学习者可更投入地参与学习,从而更有效地掌握知识。

扩大受众范围

一些客户希望在访问在线内容时能有更多选择。  文本转语音(TTS)使组织能够让偏好播客或视频而非博客和文档的人群获取其内容。 

提供替代的学习方法

借助文本转语音训练助手,组织可更好地支持员工成长。与其阅读冗长的文字,他们可以随时随地收听内容,从而更高效地利用时间。 

文本转语音技术如何演变?

文字转语音技术成为帮助 Stephen Hawking 进行口头交流的手段,此前这位物理学家因气管切开术而丧失说话能力。首个文本转语音系统由 Dennis Klatt 发明,该系统为该领域后续的创新奠定基础。
我们分享几种文本转语音技术在过去几十年的发展历程。

共振峰合成

共振峰合成是一种通过模拟发声器官以模仿人类声音的音频技术。这是早期支持文本转语音系统的一项技术。

串联合成

串联合成通过组合多个微小的录音块以创建语音。这是一种基于机器学习的文本转语音技术,可提供标准结果,但现已被深度学习和人工智能所取代。 

基于深度学习的语音合成

深度学习是一种人工智能方法,用于教计算机以受人脑启发的方式做出决策。通过学习精选的音频数据,科学家可创建更自然的语音合成。

生成式语音生成器

生成式语音生成器利用生成式人工智能进行学习、优化并生成逼真的语音。与深度学习类似,生成式人工智能利用海量音频数据进行训练。与早期的语音合成方法相比,生成式语音生成器可生成具有不同细微差别的语音音频,例如方言、音调等。例如,Amazon Alexa 由生成式人工智能提供支持,可实现更智能、更个性化且更具人性化的对话。 

文本转语音如何工作?

文本转语音软件可解析接收到的文本,并将其转换为可供人们聆听的音频。然而,音频的对话质量取决于底层的语音生成技术。文本转语音技术主要有四种类型。

标准引擎

标准引擎采用串联合成技术生成自然语音。它会组合存储在数据库中的录音片段,以形成完整的语音。虽然生成的音频清晰准确,但听起来更像机器发声而非自然人声。标准引擎常用于 IVR 呼叫菜单,其中录制的语音会要求用户输入选项,然后将呼叫转接至正确的部门。

神经引擎

与标准引擎类似,神经引擎同样以音频块作为语音合成的基础。然而,它并未链接这些块。相反,它通过考虑不同音频块组合后的听觉效果,生成连续的音频波形。这使得神经引擎能够生成自然的语音。

长段语音引擎

基于深度学习技术,长段语音引擎能够以情感自适应的语音朗读文章、书籍、报纸及其他内容。通过大量学习,该引擎生成的音频效果类似于人类朗读时的发声方式。引擎接收到文本时,可解读其含义并选择恰当的语调、停顿和重音。这使得文本转语音人工智能软件能够传递人类情感。

生成式引擎

生成式引擎运用先进的人工智能算法,以生成类似人类的语音。机器学习工程师利用多种语言、语音和风格的音频数据对生成式引擎进行训练。为生成语音,人工智能软件将书面文本转化为语音编码,进而转换为高质量、连续的音频波形。生成式引擎可实时观察并学习数字交互,使其能够像人类一样展现出情感投入、态度坚定且高度口语化的表达方式。 

选择文本转语音技术时需要考虑哪些关键因素?

您可以在网上找到许多付费和免费的文本转语音平台。然而,并非所有平台都旨在支持灵活使用、自定义及其他业务需求。下面,我们将分享选择 TTS 解决方案时需考虑的要点。

语音和语言选项

一些组织为不同地区的客户提供服务。因此,他们需要一款可生成当地语言、方言及不同声音的文本转语音软件。

语音标记

语音标记是所生成音频中特殊的指示符,用于突出显示语句的起始与结束位置。语音标记有助于将音频与视觉效果(例如人工智能虚拟形象)配对。它使虚拟形象能够将面部动作与合成的语音同步。

语音配置选项

在处理商业项目时,应尝试多种语音变体,直至找到最合适的方案。某些语音生成器提供的选项允许开发人员调整合成语音的发音效果,包括:

  • 说话风格
  • 语速
  • 音高
  • 音量
  • 语音时长

通过 API 进行语音合成

应用程序编程接口(API)使软件开发人员能够轻松实现文本转语音功能。他们没有从头开始构建语音合成器,而是通过 API 将文本传递给引擎,并接收生成的语音。

自定义词汇表

有时,文本转语音软件可能无法正确识别或解释某些词语。通常,这些词语的拼写/发音不甚标准,或者是特定行业使用的专业术语。例如,在电子学领域中,接收器指的是检测传入信号的硬件。通过选择支持自定义词汇表的文本转语音功能,您可以添加这些术语,以便软件更流畅地与用户交流。

专有定制

在某些使用案例中,企业希望在生成的音频中体现其偏好的语音风格。为此,您需要一款文本转语音软件以满足特定需求,包括品牌特有的语调、细微差别和风格。 

AWS 如何支持您的文本转语音需求?

Amazon Polly 使您能够构建文本转语音应用程序,从而吸引跨区域和跨语言的客户。借助标准、长段语音的生成式人工智能和神经引擎,您可根据需要将任何文档类型转换为语音。

您可以使用 Amazon Polly

  • 从数十种现成的声音中进行选择,涵盖不同语言、方言和性别。
  • 添加或修改罕见词汇,例如公司名称、外语短语或行业术语。
  • 以多种采样率和格式实时流式传输生成的音频。

企业利用 Amazon Polly 为应用程序增添自然语音功能,无需投入昂贵的技术成本。

立即创建免费 AWS 账户,开始使用文本转语音。