概览

借助 Amazon Transcribe,AWS 客户能够在支持语音的应用程序中添加语音转文本功能。通过使用自动语音识别(ASR)技术,客户可以将 Amazon Transcribe 用于各种业务用途。服务功能包括自动语音识别、演讲者识别、个人身份信息(PII)编辑和语言识别;有关更多详细信息,请参阅文档。此 AI Service Card 描述了其中一项功能,即 Transcribe::StartTranscriptionJob API 实现的 Transcribe – Batch(English-US)。此功能用于在 en-US 语言环境中以低(8kHz)或高(16kHz)带宽执行 ASR。它的处理对象是静态音频文件中的录制语音(批处理模式)。如需在流媒体上进行近乎实时的 ASR,请参阅 Transcribe::StartStreamTranscription API。

我们通过衡量 ASR 转录文本中所载单词与语音样本中所述单词(按人类听众转录文本中所载单词为准)的匹配程度,来评估语音转录的质量。假设演讲者说“This system can really recognize speech”,我们希望转录文本中包含所述单词,而不是记成“This system can wreck a nice beach”。 转录文本中可能会出现三种类型的错误:替换(如示例中将“recognize”替换成“wreck”)、插入(文本中出现额外的单词,如示例中的“nice”)和删除(文本缺少单词,如示例中的“really”)。正确转录的单词称为命中。精确率、召回率、F1 和单词错误率(WER)等质量指标取决于命中和错误的数量。

有多种因素会影响 ASR 系统的准确率。输入音频信号不是单纯的语音,而是语音经过各种混杂因素修改后的结果。不同演讲者对单词和话语的使用频率、发音方式以及单词组合方式存在差异。拼写和含义不同的单词在发音上可能没有区别。演讲者可能会同时说话或相互打断。录音设备在录音质量和相对于演讲者的位置(例如,远场与近场)方面会有所不同。录音环境受背景噪音水平、回声敏感度以及其他演讲者的影响。传输线路的噪音水平各不相同。Transcribe 旨在区分不同单词的音频,并且忽略混杂的变化。

预期使用案例和限制

Transcribe – Batch(English-US)旨在处理包含自然人类语音的音频样本。该服务不用于处理机械或数字转换的语音或合成语音。它旨在转录美式英语单词;有关其他语言区域,请参阅支持的语言。Transcribe 支持大量通用词汇表;客户可以添加自定义词汇表自定义语言模型,以涵盖来自专业领域的单词和短语。 Transcribe 支持说话人分区,也称为说话人识别。通过在 API 调用中启用说话人分区,最多可以识别 10 个独特的说话人。

Transcribe Batch(English-US)有许多可能的应用场景,例如联络中心分析(情感/分类/交谈速度)、转录语音邮件、会议字幕、媒体内容(音频或视频)字幕以及媒体搜索/分析/关键字分析,包括对媒体存档进行编目或索引。这些应用程序的设计因以下因素而异:1/ 演讲者数量、2/ 每个通道(即每台录音设备,例如笔记本电脑或手机)的演讲者数量、3/ 演讲者使用的语音风格、4/ 录音条件(例如位置和设备)以及其他因素。例如,联络中心转录应用程序可能预期有两位演讲者;每个通道一位演讲者;近场录音(演讲者的嘴部靠近麦克风);以及来自呼叫者家庭环境和联络中心操作员工作环境的高背景噪音。第二个示例是对教学视频添加隐藏字幕的应用场景,它是媒体分析、索引和搜索的切入点。此应用预期有多位演讲者;所有演讲者共享一个音频通道;脚本语音中包含较少的填充词、暂停和间隔,但有更多特定领域的行话;以及较低的背景噪音水平和其他音频遮挡。

Transcribe – Batch(English-US)的设计

机器学习:使用 ML 和 ASR 技术构建 Transcribe。它的工作原理如下:(1)识别音频输入的相关声学特征。(2)根据这些特征生成一组候选单词级字符串。(3)应用语言建模对候选字符串进行排名,并返回排名靠前的转录。有关 API 调用的详细信息,请参阅开发人员文档

性能预期:客户应用程序之间的个体差异和混杂差异将有所不同。这意味着即使应用程序支持相同的使用案例,其性能也会有所不同。以两个转录应用程序 A 和 B 为例。应用程序 A 支持电视访谈节目的视频字幕,每个录音通道有多个语音,采用高质量的悬吊麦克风,背景噪音可以忽略不计。应用程序 B 帮助联络中心录制客户呼叫,让客户在靠近麦克风的位置说话,每个录音通道只有一个语音,并且是非脚本化的客户对话。由于应用程序 A 和 B 的输入类型不同,因此即使假设每个应用程序都使用 Transcribe 完美部署,它们也可能会有不同的错误率。

测试驱动的方法:我们使用多个数据集来评估性能。我们无法采用单一评估数据集衡量整体性能。这是因为评估数据集因其人口构成(已定义群体的数量和类型)、混杂差异数量(内容质量、适合用途)、可用标签的类型和质量以及其他因素而有所不同。我们通过在评估数据集上进行测试来衡量 Transcribe 的性能,这些数据集包含来自代表最终用户群体的各种演讲者的录音,其中每段录音都标有演讲者的真实转录和人口统计属性。我们采用多个指标表示数据集的整体性能,包括单词错误率和 F1,其中 F1 百分比指标均匀地平衡正确预测单词的百分比(精度)与预测中包含正确单词的百分比(召回率)。数据集中的群体可以由人口统计属性(例如性别、年龄和血统)、混杂变量(例如录音设备品种、每位演讲者与录音设备的距离、后处理和背景噪音)或两者的混合来定义。不同的评估数据集因这些因素和其他因素而异。因此,所有指标(包括总体指标和群体指标)因数据集而异。考虑到这种差异,我们的开发过程使用多个评估数据集来检查 Transcribe 的性能,采取措施提高 Transcribe 性能最差的群体的准确性,努力改进评估数据集套件,然后进行迭代。

公平性与偏见:我们的目标是让 Transcribe – Batch(English-US)在美式英语演讲者可能使用的各种发音、语调、词汇和语法特征方面都能很好地发挥作用。我们考虑由区域定义的演讲者社区,例如美国中西部或纽约市,以及由身份的多个维度(包括种族、年龄和血统)定义的社区。为此,我们使用上面描述的迭代开发过程。在此过程中,我们构建数据集,以涵盖各种混杂因素下广泛类型的人类演讲者。我们会在拥有可靠人口统计标签的数据集上定期进行测试。我们发现,Transcribe 在人口统计属性中表现良好。例如,在一个包含 65 个人口群体的自然语音数据集上,按年龄、血统、性别和方言(例如女性 + 欧洲人、男性 + 45 岁以下)定义,我们发现对于每组说话人,F1 单词识别准确度为 92% 或更高。对于启用了说话人分区(说话人识别)的转录,在同一数据集上,我们发现每组说话人的识别准确率均为 98% 或更高。由于结果取决于 Transcribe、客户工作流程和评估数据集,因此我们建议客户针对自己的内容额外测试 Transcribe。

可解释性:当 Amazon Transcribe 转录音频时,它会为同一转录创建不同的版本,并为每个版本分配置信度分数。如果客户启用替代转录,Amazon Transcribe 会返回置信度较低的转录的替代版本。客户可以探索替代转录,以更深入地了解为每个音频输入生成的候选单词和短语。

稳定性:我们通过多种技术最大限度地提高稳定性,包括使用涵盖许多个体中多种差异的大型训练数据集。Transcribe ASR 的理想音频输入包含具有高录音质量、低背景噪声和低室内混响的音频。但是,Transcribe 经过训练,即使输入与理想条件不同也可灵活处理,并且可以在嘈杂的多演讲者环境下表现优异。

隐私和安全性:Amazon Transcribe 仅处理音频输入数据。音频输入绝不会包含在服务返回的输出中。客户之间绝不会共享输入和输出。客户可以通过 AWS Organizations 或我们可能提供的其他选择退出机制选择退出有关客户内容的培训。有关更多信息,请参阅 AWS 服务条款第 50.3 节和 AWS 数据隐私常见问题。有关特定于服务的隐私和安全信息,请参阅 Transcribe 常见问题的“数据隐私”部分和 Amazon Transcribe 安全文档。

透明度:如果适合其使用案例,则鼓励将 Amazon Transcribe 纳入其工作流程的客户向最终用户和其他受应用程序影响的个人披露其使用 ML 和 ASR 技术的情况,并且支持最终用户提供反馈以改进工作流程。在其文档中,客户还可以引用此 AI Service Card。

治理:我们采用严格的方法,以负责任的方式构建我们的 AWS AI 服务,包括在设计阶段融入负责任人工智能的逆向工作产品开发流程,由专职的负责任人工智能科学和数据专家设计咨询和实施评估,执行例行测试,与客户共同审查,以及进行最佳实践开发、分发和培训。

部署和性能优化最佳实践

我们鼓励客户按照 《AWS 负责任使用机器学习》指南中所述,负责任地构建和运行应用程序。这包括实施负责任的人工智能实践以处理关键维度,涵盖公平性和偏见、稳定性、可解释性、隐私和安全性、透明度和治理。
 
工作流程设计:任何使用 Transcribe 的应用程序的性能都取决于客户工作流程的设计。“预期使用案例”部分讨论了背景噪音、录音设备等条件。根据应用程序的不同,Transcribe 客户可能会对这些条件进行优化,并且定义从最终用户处采集音频的工作流程。Transcribe 为客户提供用于在 API 中优化识别性能的各种特征。这些特征包括录音条件、采样率、自定义词汇表、自定义语言模型以及筛选词汇表或个人身份信息(PII)。人为监督、工作流程一致性和定期测试性能偏差也是关键考虑因素,这些考虑因素由客户控制,有助于获得准确、公平的结果。
 
  1. 录音条件:工作流程应包括解决录音条件差异的步骤,例如在远离麦克风的位置或在嘈杂的条件下发言。如果差异很大,可以考虑提供所有最终用户都能获得的帮助和说明,并通过定期和随机采样输入来监控录音质量。

  2. 采样率:客户可以使用可选参数来指定其输入音频的采样率,可以是较低带宽(8kHz)或宽带(16kHz)输入。

  3. 自定义词汇表:Transcribe 可识别各种演讲者社区(方言区域、人口群体)中使用的词汇表。如果客户想要为特定域名或情况的单词(例如品牌名称或专有名词和首字母缩略词)提供额外支持,则其可以部署自定义词汇表来提高此类单词的转录准确性。有关更多信息,请参阅自定义词汇表的文档。

  4. 自定义语言模型:当客户应用程序必须处理复杂性超出单个单词的域特定语音时,客户可以使用自定义语言模型来提高转录的准确性。例如,在转录气候科学演讲的录音时,可以通过学习单词出现的上下文(例如“冰流”与“浮冰”)来提高转录的准确性。在此情况下,客户可以训练自定义语言模型来识别特殊术语。有关更多信息,请参阅自定义语言模型的文档。

  5. 词汇表筛选和 PII 修订:这些优化可以提高转录中所生成语言的安全性和隐私性。词汇表筛选可让客户根据其定义的列表掩蔽或移除转录结果中敏感或不适合受众的单词。PII 修订可让客户根据 Transcribe – Batch(English-US)识别的 PII 类型生成已移除 PII 的转录。其中包括姓名、地址、信用卡号、SSN 等。有关更多信息,包括 PII 类型的完整列表以及对受监管工作负载使用 PII 修订的注意事项,请参阅词汇表筛选PII 修订的文档。

  6. 人为监督:如果客户的应用程序工作流程涉及高风险或敏感使用案例,例如影响个人权利或基本服务访问权限的决定,应该将人工审核纳入应用程序工作流程。ASR 系统可以充当工具,减少全人工解决方案所产生的工作量,并且支持用户快速审查和评测音频内容。

  7. 一致性:客户应针对允许的各种工作流程自定义和音频输入制定和执行策略,以及针对人工如何使用自己的判断来评估转录输出制定和执行策略。这些策略应在不同人口群体中保持一致。不一致地修改音频输入可能会给不同的人口群体带来不公平的结果。

  8. 性能偏差:客户提交给 Transcribe 的音频类型的更改或服务的更改可能会导致不同的输出。为应对这些更改,客户应考虑定期重新测试 Transcribe 的性能,并在必要时调整工作流程。

更多信息

词汇表

公平性和偏见是指人工智能系统如何影响不同的用户亚群(例如,按性别、种族)。

可解释性是指拥有理解和评估人工智能系统输出的机制。

稳定性是指拥有确保人工智能系统可靠运行的机制。

隐私与安全性是指保护数据免遭盗窃和泄露。

治理是指采用流程在组织内定义、实施和执行负责任的人工智能实践。

透明度是指交流有关人工智能系统的信息,以便利益相关者能够就其是否使用该系统做出明智的选择。