教程简介
在内容创作、在线教育、视频制作或提升应用可访问性的过程中,为您的文本内容配上清晰、自然的语音,能够极大地提升用户体验。本教程将向您展示如何使用 Amazon Polly——亚马逊云科技的文本转语音 (TTS) 服务——在几分钟内,轻松地将任何文字转换成听起来像真人一样流畅的音频。
难度:初级
时间:20 分钟
所需费用:无
前提条件:AWS 账号
相关产品:Amazon Polly
上次更新时间:2025 年 10 月 21 日
前提条件:亚马逊云科技海外区域账号,Amazon Bedrock 及相关模型使用权限
相关行业:通用
教程目标
完成本教程后,您将能够:
- 熟悉 Amazon Polly 控制台的基本操作界面。
- 选择不同的语言和声音,包括更高级的“神经”声音。
- 成功将一段中文文本转换为高质量的 MP3 音频。
- 在线收听并下载您生成的语音文件。
架构概览
我们将要进行的操作完全在 Amazon Polly 的服务控制台中完成。您只需输入文本,Polly 就会为您处理所有复杂的 AI 计算,并直接返回一个音频文件。
准备工作
全部打开一个亚马逊云科技账户:本教程所有操作的前提。
区域适用性与费用说明
- 区域:本教程所介绍的 Amazon Polly 服务完全适用于 AWS 全球区域和中国区域(由光环新网运营的北京区域和西云数据运营的宁夏区域)。
- 费用:Amazon Polly 提供了永久免费套餐,每月包含百万级的字符转换额度(标准语音每月 500 万字符,神经语音首年每月 100 万字符)。本教程的所有操作完全在免费套餐范围内,您可以放心跟随操作,不会产生任何费用。
第一步:进入 Amazon Polly 控制台
全部打开让我们从找到这个神奇的“声音”工具开始。
使用您的账户登录到 AWS 管理控制台。
- 在控制台顶部的搜索框中输入 Polly 并回车。
- 在搜索结果中,点击“Amazon Polly”进入服务主页。
第二步:配置您的文本转语音任务
全部打开进入 Polly 控制台后,您会看到一个简洁的“文本转语音”界面。这里就是我们施展魔法的地方。
- 引擎 (Engine):您会看到“标准 (Standard)”和“神经 (Neural)”两个选项。神经引擎 使用了更先进的深度学习技术,生成的声音更自然、更像人类。我们强烈推荐您选择“神经”
- 语言和区域 (Language and region):在下拉菜单中,选择“中文,普通话 (Chinese, Mandarin)”。
根据您选择的语言,这里会列出可用的声音。每个声音都有自己的名字和性别。让我们选择 “Zhiyu, Female”,这是一个非常受欢迎的自然女声。
在“输入文本 (Input text)”下方的文本框中,您可以输入任何想转换的文字。为了演示,请将下面这段文字完整地复制进去:
你好,欢迎使用 Amazon Polly。借助先进的深度学习技术,我可以将文字转换为逼真的语音。无论是创建有声读物、为视频配音,还是让您的应用程序开口说话,都变得前所未有的简单。让我们一起探索声音的无限可能吧!
第三步:生成并收听您的语音
全部打开所有配置都已完成,现在是见证奇迹的时刻。
在文本框上方,找到并点击“收听 (Listen)”按钮。
- 点击按钮后,Polly 会在几秒钟内完成文本到语音的转换。转换完成后,会自动开始播放。
- 现在,您可以清楚地听到 Zhiyu 用流畅、自然的普通话读出您输入的文字。
第四步:下载您的音频文件
全部打开在线收听很棒,但通常我们需要将这个音频文件保存下来用于其他地方。
在“Listen”按钮旁边,您会看到一个“下载 (Download)”按钮。点击它。
您的浏览器会开始下载一个 MP3 格式的音频文件。您可以将其保存到您的电脑上,随时播放或在您的项目中使用。
总结与下一步
全部打开恭喜您!您已经成功地使用 Amazon Polly 将一段文字转换成了高质量的语音文件。您掌握了:
- 如何使用 Polly 控制台进行文本到语音的转换。
- 如何选择不同的声音,特别是更高级的神经语音。
- 如何将生成的音频保存为 MP3 文件。
这仅仅是开始。接下来,您可以探索:
- SSML 标签:通过使用简单的 SSML 标签(例如 Hello!),您可以更精细地控制语音的语速、音调和停顿,让声音更具表现力。
- 使用 API:对于开发者来说,可以通过调用 Polly 的 API,将文本转语音的功能无缝集成到自己的应用程序中,实现动态内容的实时语音播报。
清理资源
全部打开本教程的所有操作都在 Amazon Polly 的控制台中即时完成,不涉及创建任何需要持续付费的资源。因此,本教程无需任何清理操作。