什么是文本转语音？— 文本转语音详解

什么是文本转语音？

文本转语音技术是一种软件，可将数字文本转换为语音对话，使用计算机生成的声音进行播放。组织希望将文本转换为语音，以满足多种使用案例的需求，包括教育、客户互动、辅助技术、数字虚拟形象、游戏、日常电话呼叫自动化等领域。文本转语音技术利用人工智能，将书面文本转化为自然流畅的语音，并使用您选择的口音和方言。人工智能语音生成器可与客户进行极自然的语音对话，包括添加停顿、情感表达以及语速变化。

文本转语音有哪些优势？

文本转语音使组织能够通过高质量的语音讲述文本内容，从而与受众进行互动。下面，我们将分享这项技术可为企业提供的关键优势。

提高可访问性

企业可通过在内容制作中运用文本转语音技术，提升包容性，尤其是能惠及视障人士。文本转语音软件将内容转化为音频文件，阅读困难者可通过聆听获取信息。

个性化互动

借助文本转语音软件，组织可根据听众偏好的语调、语音和风格个性化音频内容。企业可通过自定义品牌之声以传递信息，从而给大众留下深刻印象。

支持学习活动

文本转语音技术使组织能够探索支持电子学习计划的新途径。通过将书面内容转化为可听形式，学习者可更投入地参与学习，从而更有效地掌握知识。

扩大受众范围

一些客户希望在访问在线内容时能有更多选择。文本转语音（TTS）使组织能够让偏好播客或视频而非博客和文档的人群获取其内容。

提供替代的学习方法

借助文本转语音训练助手，组织可更好地支持员工成长。与其阅读冗长的文字，他们可以随时随地收听内容，从而更高效地利用时间。

文本转语音技术如何演变？

文字转语音技术成为帮助 Stephen Hawking 进行口头交流的手段，此前这位物理学家因气管切开术而丧失说话能力。首个文本转语音系统由 Dennis Klatt 发明，该系统为该领域后续的创新奠定基础。
我们分享几种文本转语音技术在过去几十年的发展历程。

共振峰合成

共振峰合成是一种通过模拟发声器官以模仿人类声音的音频技术。这是早期支持文本转语音系统的一项技术。

串联合成

串联合成通过组合多个微小的录音块以创建语音。这是一种基于机器学习的文本转语音技术，可提供标准结果，但现已被深度学习和人工智能所取代。

基于深度学习的语音合成

深度学习是一种人工智能方法，用于教计算机以受人脑启发的方式做出决策。通过学习精选的音频数据，科学家可创建更自然的语音合成。

生成式语音生成器

生成式语音生成器利用生成式人工智能进行学习、优化并生成逼真的语音。与深度学习类似，生成式人工智能利用海量音频数据进行训练。与早期的语音合成方法相比，生成式语音生成器可生成具有不同细微差别的语音音频，例如方言、音调等。例如，Amazon Alexa 由生成式人工智能提供支持，可实现更智能、更个性化且更具人性化的对话。

文本转语音如何工作？

文本转语音软件可解析接收到的文本，并将其转换为可供人们聆听的音频。然而，音频的对话质量取决于底层的语音生成技术。文本转语音技术主要有四种类型。

标准引擎

标准引擎采用串联合成技术生成自然语音。它会组合存储在数据库中的录音片段，以形成完整的语音。虽然生成的音频清晰准确，但听起来更像机器发声而非自然人声。标准引擎常用于 IVR 呼叫菜单，其中录制的语音会要求用户输入选项，然后将呼叫转接至正确的部门。

神经引擎

与标准引擎类似，神经引擎同样以音频块作为语音合成的基础。然而，它并未链接这些块。相反，它通过考虑不同音频块组合后的听觉效果，生成连续的音频波形。这使得神经引擎能够生成自然的语音。

长段语音引擎

基于深度学习技术，长段语音引擎能够以情感自适应的语音朗读文章、书籍、报纸及其他内容。通过大量学习，该引擎生成的音频效果类似于人类朗读时的发声方式。引擎接收到文本时，可解读其含义并选择恰当的语调、停顿和重音。这使得文本转语音人工智能软件能够传递人类情感。

生成式引擎

生成式引擎运用先进的人工智能算法，以生成类似人类的语音。机器学习工程师利用多种语言、语音和风格的音频数据对生成式引擎进行训练。为生成语音，人工智能软件将书面文本转化为语音编码，进而转换为高质量、连续的音频波形。生成式引擎可实时观察并学习数字交互，使其能够像人类一样展现出情感投入、态度坚定且高度口语化的表达方式。

选择文本转语音技术时需要考虑哪些关键因素？

您可以在网上找到许多付费和免费的文本转语音平台。然而，并非所有平台都旨在支持灵活使用、自定义及其他业务需求。下面，我们将分享选择 TTS 解决方案时需考虑的要点。

语音和语言选项

一些组织为不同地区的客户提供服务。因此，他们需要一款可生成当地语言、方言及不同声音的文本转语音软件。

语音标记

语音标记是所生成音频中特殊的指示符，用于突出显示语句的起始与结束位置。语音标记有助于将音频与视觉效果（例如人工智能虚拟形象）配对。它使虚拟形象能够将面部动作与合成的语音同步。

语音配置选项

在处理商业项目时，应尝试多种语音变体，直至找到最合适的方案。某些语音生成器提供的选项允许开发人员调整合成语音的发音效果，包括：

说话风格
语速
音高
音量
语音时长

通过 API 进行语音合成

应用程序编程接口（API）使软件开发人员能够轻松实现文本转语音功能。他们没有从头开始构建语音合成器，而是通过 API 将文本传递给引擎，并接收生成的语音。

自定义词汇表

有时，文本转语音软件可能无法正确识别或解释某些词语。通常，这些词语的拼写/发音不甚标准，或者是特定行业使用的专业术语。例如，在电子学领域中，接收器指的是检测传入信号的硬件。通过选择支持自定义词汇表的文本转语音功能，您可以添加这些术语，以便软件更流畅地与用户交流。

专有定制

在某些使用案例中，企业希望在生成的音频中体现其偏好的语音风格。为此，您需要一款文本转语音软件以满足特定需求，包括品牌特有的语调、细微差别和风格。

AWS 如何支持您的文本转语音需求？

Amazon Polly 使您能够构建文本转语音应用程序，从而吸引跨区域和跨语言的客户。借助标准、长段语音的生成式人工智能和神经引擎，您可根据需要将任何文档类型转换为语音。

您可以使用 Amazon Polly

从数十种现成的声音中进行选择，涵盖不同语言、方言和性别。
添加或修改罕见词汇，例如公司名称、外语短语或行业术语。
以多种采样率和格式实时流式传输生成的音频。

企业利用 Amazon Polly 为应用程序增添自然语音功能，无需投入昂贵的技术成本。

立即创建免费 AWS 账户，开始使用文本转语音。

什么是文本转语音？