跳至主要内容

实战教程:使用 Amazon Polly 将一段文字转换成自然的语音

教程简介

在内容创作、在线教育、视频制作或提升应用可访问性的过程中,为您的文本内容配上清晰、自然的语音,能够极大地提升用户体验。本教程将向您展示如何使用 Amazon Polly——亚马逊云科技的文本转语音 (TTS) 服务——在几分钟内,轻松地将任何文字转换成听起来像真人一样流畅的音频。

难度:初级

时间:20 分钟

所需费用:无

前提条件:AWS 账号

相关产品:Amazon Polly

上次更新时间:2025 年 10 月 21 日

前提条件:亚马逊云科技海外区域账号,Amazon Bedrock 及相关模型使用权限

相关行业:通用

教程目标

完成本教程后,您将能够:

  • 熟悉 Amazon Polly 控制台的基本操作界面。
  • 选择不同的语言和声音,包括更高级的“神经”声音。
  • 成功将一段中文文本转换为高质量的 MP3 音频。
  • 在线收听并下载您生成的语音文件。

架构概览

我们将要进行的操作完全在 Amazon Polly 的服务控制台中完成。您只需输入文本,Polly 就会为您处理所有复杂的 AI 计算,并直接返回一个音频文件。

Missing alt text value

准备工作

全部打开

一个亚马逊云科技账户:本教程所有操作的前提。

区域适用性与费用说明

  • 区域:本教程所介绍的 Amazon Polly 服务完全适用于 AWS 全球区域和中国区域(由光环新网运营的北京区域和西云数据运营的宁夏区域)。
  • 费用:Amazon Polly 提供了永久免费套餐,每月包含百万级的字符转换额度(标准语音每月 500 万字符,神经语音首年每月 100 万字符)。本教程的所有操作完全在免费套餐范围内,您可以放心跟随操作,不会产生任何费用。

第一步:进入 Amazon Polly 控制台

全部打开

让我们从找到这个神奇的“声音”工具开始。

使用您的账户登录到 AWS 管理控制台。

  • 在控制台顶部的搜索框中输入 Polly 并回车。
  • 在搜索结果中,点击“Amazon Polly”进入服务主页。

 

第二步:配置您的文本转语音任务

全部打开

进入 Polly 控制台后,您会看到一个简洁的“文本转语音”界面。这里就是我们施展魔法的地方。

  • 引擎 (Engine):您会看到“标准 (Standard)”和“神经 (Neural)”两个选项。神经引擎 使用了更先进的深度学习技术,生成的声音更自然、更像人类。我们强烈推荐您选择“神经”
  • 语言和区域 (Language and region):在下拉菜单中,选择“中文,普通话 (Chinese, Mandarin)”。

 

根据您选择的语言,这里会列出可用的声音。每个声音都有自己的名字和性别。让我们选择 “Zhiyu, Female”,这是一个非常受欢迎的自然女声。

 

在“输入文本 (Input text)”下方的文本框中,您可以输入任何想转换的文字。为了演示,请将下面这段文字完整地复制进去:

你好,欢迎使用 Amazon Polly。借助先进的深度学习技术,我可以将文字转换为逼真的语音。无论是创建有声读物、为视频配音,还是让您的应用程序开口说话,都变得前所未有的简单。让我们一起探索声音的无限可能吧!

 

第三步:生成并收听您的语音

全部打开

所有配置都已完成,现在是见证奇迹的时刻。

在文本框上方,找到并点击“收听 (Listen)”按钮。

 

  • 点击按钮后,Polly 会在几秒钟内完成文本到语音的转换。转换完成后,会自动开始播放。
  • 现在,您可以清楚地听到 Zhiyu 用流畅、自然的普通话读出您输入的文字。

 

第四步:下载您的音频文件

全部打开

在线收听很棒,但通常我们需要将这个音频文件保存下来用于其他地方。

在“Listen”按钮旁边,您会看到一个“下载 (Download)”按钮。点击它。

 

您的浏览器会开始下载一个 MP3 格式的音频文件。您可以将其保存到您的电脑上,随时播放或在您的项目中使用。

 

总结与下一步

全部打开

恭喜您!您已经成功地使用 Amazon Polly 将一段文字转换成了高质量的语音文件。您掌握了:

  • 如何使用 Polly 控制台进行文本到语音的转换。
  • 如何选择不同的声音,特别是更高级的神经语音。
  • 如何将生成的音频保存为 MP3 文件。

这仅仅是开始。接下来,您可以探索:

  • SSML 标签:通过使用简单的 SSML 标签(例如 Hello!),您可以更精细地控制语音的语速、音调和停顿,让声音更具表现力。
  • 使用 API:对于开发者来说,可以通过调用 Polly 的 API,将文本转语音的功能无缝集成到自己的应用程序中,实现动态内容的实时语音播报。

清理资源

全部打开

本教程的所有操作都在 Amazon Polly 的控制台中即时完成,不涉及创建任何需要持续付费的资源。因此,本教程无需任何清理操作