跳至主要内容

什么是文本转语音软件?

从网页朗读到用户数据请求,语音正迅速成为现代用户界面的主流。客户日益期待在与之交互的每个应用程序中都能获得语音功能。除此之外,医疗保健、销售、内容创作、客户服务及其他应用程序中的文本转语音使用案例,既能加速自动化进程,又能增强客户体验。本指南探讨文本转语音特征及功能,以及如何开始使用。

文本转语音(TTS)软件通过将文本合成语音,以生成音频“语音”。该软件由基于海量人类语音录音训练的文本转语音引擎提供支持。它通过分析语音数据中的声波波形,将书面文字转换为口语形式。

生硬、机械化的声音是过时的语音技术造成的结果。基于生成式人工智能的现代文本转语音引擎所产生的输出,几乎与人类语音没有区别。生成的语音可以包含自然停顿、不同口音、不同语速以及反映人类情感的语调变化。

文本转语音软件的类型

您选择的 TTS 工具类型取决于您的使用案例。对于开发人员而言,一体化、可自定义、集成的开发套件是多应用、多环境开发的最佳选择。

开发人员可选择开源或商业 TTS 软件进行自主部署,也可以使用 Amazon Polly 等完全集成的托管云服务。它可以为现有应用程序集成先进的语音功能,支持构建具有语音功能的全新类别产品,从移动应用程序和汽车到设备和家电,均涵盖其中。

Amazon Polly 提供四种基于不同人工智能模型架构的语音引擎,适用于各种使用案例。要使用 Amazon Polly 语音,只需在代码中通过 API 选择引擎、语音合成操作和输出文件格式即可。然后提供输入文本,以供引擎进行合成。Amazon Polly 将根据您指定的格式生成语音输出文件。这些引擎还可针对特定语音或品牌需求进行进一步训练。

选择文本转语音软件时应关注哪些功能?

Amazon Polly 包含以下对现代语音开发至关重要的文本转语音功能。

语音范围

可以选择不同语言、地区、性别以及地区内不同语音的选项,为开发提供更全面的产品套件。Amazon Polly 支持数十种语言,以及基于国家/地区的变体和口音,并提供男女声版本。

基于 API 的集成

检查您的 TTS 软件是否具有功能齐全的 API,是否支持多种编程语言,以实现跨项目最广泛的集成。Amazon Polly 提供 Amazon Polly API 以及多种特定语言的 SDK。您还可以通过 AWS 管理控制台和 AWS 命令行界面(CLI)进行访问。无论您以何种方式使用 Amazon Polly,都可对其所有功能进行全面控制。

精准语音控制

语音合成标记语言(SSML)是一种基于 XML 的标记语言,可让您提供更多关于语音应如何发音的信息。例如,您可以添加停顿、解释性内容(如日期、首字母缩略词)、音高、语速、音量、重音、淡入效果及其他音频元素,以自定义生成的语音。SSML 让您能够完全控制语音输出,并能够将自定义设置移植到其他系统。 

Amazon Polly 支持通用和自定义的 Amazon SSML 标签,例如让语音听起来像新闻播音员的功能。这种灵活性助您打造栩栩如生的语音效果,吸引并牢牢抓住听众的注意力。

用于同步动画的元数据钩子

某些应用程序(如游戏和媒体)需要支持音频跟随的动画效果,包括角色口型同步或卡拉 OK 式的文字跟随显示。多语言训练视频同样需要实现多语言同步时序,确保所有语言的音频与视频在同一时间点对齐。

对于此类应用程序,开发人员需要使用元数据,以时间戳格式标记特定时间点出现的语音元素。Amazon Polly 允许您在请求语音文件时,同时请求此类附加元数据(即语音标记)。语音标记提供诸如音频文件时间戳、视觉音素(与发音相关的面部动作和口型)等信息,以及将书面文本与语音输出关联的其他详细信息。

自定义

您希望文本转语音软件可以完全自定义,以实现最大的灵活性。例如,音频输出应支持针对不同格式和配置进行自定义,包括按文件类型(仅为举例)、文件大小和数据质量进行自定义。该软件应能处理超出其训练数据范围的自定义词汇表。

Amazon Polly 支持在每个阶段进行文本转语音自定义。

词汇表

您可以创建自定义词典,为公司名称、首字母缩略词、外语词汇和新词汇添加个性化发音。您可以要求输出多种语音格式,例如 MP3 和 WAV。

输出格式

Amazon Polly 还支持以自然声音朗读长篇音频内容,例如阅读文档。在实时使用案例中,您可以为低带宽或低延迟连接生成连续的音频流。

语音

我们还提供品牌之声,这是自定义项目,您将与 Amazon Polly 团队合作,为您的组织量身打造专属语音。与其模仿其他应用程序的声音,不如打造独特的语音品牌标识,助您脱颖而出。

如何开始使用文本转语音软件?

轻松上手 AWS 文本转语音软件。在本指南中,我们将通过控制台快速演示如何使用 Amazon Polly。

首先,登录 AWS 管理控制台并打开 Amazon Polly 控制台。点击“试用 Polly”,以开始使用。这将打开“文本转语音”对话框。

步骤 1 — 选择引擎

在“文本转语音”对话框中,您可以选择要使用的语音引擎。Amazon Polly 目前有四种不同的语音引擎可供选择。

  • 标准引擎使用串联合成方法作为语音生成器。
  • 神经引擎使用神经网络和声码器技术,以生成更自然的语音。
  • 生成式引擎使用经过海量语音数据训练的十亿参数模型,以生成更自然的语音。
  • 长段语音引擎是另一种生成式人工智能文本转语音引擎,专为长篇叙事风格的语音而开发。

并非所有引擎在所有 AWS 区域均可用。

步骤 2 — 选择语言

选择语音引擎后,从下拉菜单中选择所需生成的语言以及男声或女声。

每个语音引擎支持的语言范围和人工智能语音各不相同。例如,如果您选择“神经网络”作为引擎类型,则仅提供支持神经网络文本转语音(NTTS)的语言和语音选项,所有标准引擎和长段语音引擎将被禁用。

步骤 3 — 将文本转换为语音

在输入文本框中,将默认文本更改为您自己的书面文本输入。您可以选择“聆听”按钮以收听朗读内容,选择“下载”按钮以下载 MP3 文件,或点击“保存至 S3”按钮以将语音内容保存至 Amazon Simple Storage Service

通过 API 访问 Amazon Polly

您可以通过控制台访问 Amazon Polly(如上所述),也可以在应用程序代码中通过其 API 进行访问。Amazon Polly API 支持多种功能,从实时翻译到生成字幕,再到为视频游戏或其他动画角色赋予生命。尝试 GitHub 上的示例,以了解如何在代码中使用 Amazon Polly API 的示例。

AWS 如何支持您的文本转语音软件需求?

文本转语音功能可让您通过文本而非真人语音创建基于语音的音频。它最初作为视障人士的辅助技术被使用,但如今逐渐成为众多应用程序和客户交互的必要功能,范围涵盖浏览器扩展程序到呼叫中心和企业应用程序。使用 Amazon Polly 这类托管服务,开发人员可通过文本转语音 API 调用,轻松地将逼真的现代语音引擎集成到应用程序中。Amazon Polly 的定价基于引擎类型和处理的字符数,并包含供个人使用的免费套餐。

Amazon Polly 的语音音频只是您在应用程序开发中可利用的生成式人工智能服务之一。探索 AWS 上的各种人工智能解决方案,助您更快、更强大地构建和扩展应用程序。