什么是音频文件转录？— 音频文件转录详解

什么是音频文件转录？

各类组织需要大规模的音频转录服务，以满足从会议记录整理到医疗保健应用程序等多种使用案例需求。现代人工智能技术可将音频转录为文本，将多种口音和多位发言者之间的对话转化为准确且格式规范的文档。本指南探讨满足企业及小型企业需求的音频转文本方法。

基于语音的沟通对于人类充分理解彼此至关重要。语音是一种快速且即时的传递想法、信息、指令和情感的沟通方式。通过音频转文本转换器录制并转录语音通信，已成为保障记忆准确性及后续工作开展的关键环节。当您将音频转录为文本时，可以保留、检索、分析和重组重要信息，从而更快地获取见解，并即时融入业务流程。

过去，人们会一边听一段录音，一边同步输入内容，通过暂停和开始以将口语转化为准确的文本记录。律师事务所、医生、研究人员及其他专业机构设有打字员团队，负责将语音笔记转录为文本的这项手动任务。

如今，机器可以通过语音转文本转换器即时转录音频。语音转文本（STT）技术可将音频文件转换为书面文本文件，从而替代人工转录工作。该文本文件可直接阅读，通过人工智能转录器进行摘要处理，在其他软件系统中自动执行操作，单独分析或纳入更广泛的语料库进行研究，以及实现更多功能。语音转文本转换器的应用领域无穷无尽。

音频文件转录技术有哪些？

音频文件可能包含多位发言者、不同口音以及特定领域的术语。录音的音质也可能存在差异。将口语转化为文本需要具备语音理解能力以及语言语法知识，以生成可读的输出结果。

早期音频转文本转换器软件存在错误，生成的转录文本难以阅读，缺乏合理结构，且存在层次结构、词汇和语法方面的错误。现代音频转文本转换器软件表现更为出色，可将音频转换为与口语高度匹配的文本，生成准确且具备恰当书面结构和语法的转录文本。

Amazon Transcribe 是一项完全托管的服务，可使用自动语音识别（ASR）技术将语音转换为文本。它可以处理各种语音特征，包括语速、音调和音量的变化。它支持 100 多种语言的转录功能，可集成至开发人员工作流程和 AWS 基础设施，满足企业音频转文本需求。

如何开始使用音频转录？

将音频转录为文本主要有两种方法，取决于音频或视频文件类型。批量转录用于转录预先录制的音频文件，而流式转录则用于转录实时媒体流。

Amazon Transcribe 支持单声道和双声道音频，适用于批量转录和流式处理音频及视频转录类型。

批量转录和流式音频转文本转录均以 JSON 文件格式进行输出。输出中提供的字段取决于您在音频转录请求中包含的特征。您的转录文本至少包含每个给定单词、其开始时间、结束时间、类型、词汇表筛选条件匹配情况以及可验证性的置信度评分。其他字段包括发言者标签、替代词、声道等。

流式转录

流式转录用于实时转录音频流。Amazon Transcribe 流式转录服务支持 FLAC 和 PCM 已签名的 16 位小端音频（非 WAV）作为首选格式，同时支持 Ogg Opus 格式。设置与音频文件匹配的采样率，以免出现音频转文本错误。

您可以使用 AWS 管理控制台、HTTP/2、WebSockets 以及多种 AWS SDK，具体取决于您使用转录服务的方式。

以下将通过 AWS 管理控制台演示流式音频转录的操作流程。

在左侧导航窗格中，选择实时转录。
开始流式转录前，请选择语言、发言者识别、内容移除及自定义等选项。
点击开始直播按钮即可实时录制，并在下方转录输出框中查看开始转录的输出内容。

录音转换完成后，您可以点击下载完整脚本按钮，以免费下载 JSON 文件脚本。

批量文件转录

批量转录用于转录存储在 Amazon S3 云存储桶中的一个或多个现有媒体文件。使用批量转录服务，您最多可将 10,000 个音频文件任务加入队列，这些任务将按先进先出原则进行处理。语音录制任务可根据您的订阅方案并行处理，实现音频文件的批量转换。

批量转录支持 FLAC 和 WAV（采用 PCM 16 位编码）作为首选格式。然而，同样支持 AMR、M4A、MP3、MP4、Ogg 和 WebM 等其他格式。请确保设置与音频文件匹配的采样率，以免出现音频转文本错误。

您可以使用 AWS CLI、AWS 管理控制台和多种 AWS SDK，通过批量转录流程将音频转换为文本。

以下将通过 AWS 管理控制台演示批量音频转录的操作流程。

将您要转录的媒体文件上传至 Amazon S3 存储桶。
在左侧导航窗格中，选择转录任务。您将进入转录任务列表。
选择创建任务，然后填写指定任务详细信息页面上的字段。
配置任务后，点击创建任务按钮以开始。
返回转录任务页面，您可在该页面查看任务状态。
在右栏的输出数据位置下选择关联的文件路径，以查看您的 JSON 文件转录内容。

注意：如果您选择服务托管的存储桶作为输出目标，则可在转录任务的信息页面上看到转录预览窗格，以及用于下载 JSON 格式音频转文本文件的“下载”按钮。

在配置过程中，请填写以下页面内容。

输入数据

在输入数据页面下，S3 上的输入文件位置指您在现有 S3 存储桶中的音频文件，输出数据则指 S3 服务托管的存储桶或您自己的 S3 存储桶。

配置任务

配置任务页面允许您选择自定义选项，例如频道识别、内容编辑和筛选，以及自定义词汇表。

还有其他哪些转录功能？

Amazon Transcribe 提供一系列附加功能，可在转换音频或视频文件时生成更实用、更安全且更准确的转录文本。

自定义词汇表和语言模型

用户可创建自定义词汇表和语言模型，精准捕捉并转录包含特定领域品牌名称、首字母缩略词、技术词汇及行话的音频内容。对于具备蓬勃发展的内部语言生态系统或处于高度专业化的技术行业的大型组织，自定义语言模型大有裨益。

自定义词汇表是由用户创建的文件，用于演示特定单词的发音方式。例如，可将名为 VX02Q 的项目添加到发音为 v.x.-Zero-Two-Q 的自定义词汇表中。

自定义语言模型允许音频转文本模型在现有数据集上进行额外训练，以理解特定领域语言的上下文。例如，如果您使用上传的气候科学研究论文文本以训练模型，该模型可能会学习到“浮冰”比“冰流”更可能为词对。同样，如果您引用名为“Bzntry”的产品，当音频文件数据集中多次出现“bee-zen-tree”时，系统将自动匹配包含该词的音频输出。

批量转录和流式音频转文本转录均支持自定义词汇表和自定义语言模型。

自动审核

借助自定义词汇表筛选条件，您可以对 JSON 转录输出中的特定单词或词组进行屏蔽、替换或标记（“vocabularyFilterMatch”: true）。

示例：

用三个星号（***）掩盖粗俗词语
用“新产品”替换预发布阶段的秘密产品名称
统计文字记录中标记为“嗯”或“比如”的标签数量，以帮助发言者提升公开演讲技巧

批量转录和流式音频转文本转录均支持词汇表筛选条件。

PII 编辑和识别

个人身份信息（PII）可在音频转文本记录中自动进行编辑和标记。这对企业存储敏感信息至关重要，因为 PII 可能受严苛的保密法规约束。

Amazon Transcribe 包含的 PII 类型包括姓名、地址、电子邮件地址、电话号码、银行账号详细信息、个人识别码（PIN）以及社会保险号码。在转录文本的正文部分，音频转文本转换器会将 JSON 文件中的该词替换为 [PII]，并在“redactions”JSON 字段中按类型进行计数和分类。

字幕

Amazon Transcribe 允许用户生成 WebVTT（*.vtt）和 SubRip（*.srt）字幕文件，以与视频配对使用，同时还提供常规的 JSON 输出文件。字幕与音频或视频文件中的文本同时显示，并持续显示直至音频出现自然停顿或发言者结束说话。

毒性检测

Amazon Transcribe 可用于识别和分类有毒语言。有毒内容标记且分类为七个类别，包括性骚扰、仇恨言论、威胁、虐待、亵渎、侮辱和图片。Amazon Transcribe 使用先进的识别技术，包括语调和音调，为对话提供额外的语境信息。

呼叫分析

Amazon Transcribe 为客户服务和销售呼叫提供专用的 API。您可以使用该 API 获取以下方面的见解：客户和座席人员的情绪分析、呼叫驱动因素、短语提及、非通话时间、中断情况、语速、实时问题检测以及对话摘要。Amazon Transcribe 还可对呼叫录音进行后期编辑，将已存储呼叫中的 PII 替换为静音。

医疗转录

Amazon Transcribe 提供符合 HIPAA 标准的 API，可将音频文件准确转录为医疗术语文本，同时优先保障患者数据隐私与安全性。在医患互动中，这种方式颇具实用价值，因为记录笔记既耗时又容易分散注意力，还会打断交流。

AWS 如何支持您的音频转录需求？

语音转文本转录将语音从即时通讯方式转化为可存储、可搜索、可分析且极具价值的数据来源。采用语音识别进行音频转录的组织，在生产力、训练、客户服务、销售等多个领域都已获得显著效益。

在组织内嵌入 Amazon Transcribe 音频转文本转换器，可确保语音录音保留价值，并增加其有用的应用程序。探索 AWS 上的各种人工智能解决方案，助您更快、更强大地构建和扩展应用程序。

什么是音频文件转录？