AWS AI Service Card 解释了该服务预期的使用案例、该服务如何使用机器学习(ML),以及负责任地设计和使用服务时的关键注意事项。Service Card 将随着 AWS 收到客户反馈以及服务在其开发过程中的迭代而演变。AWS 建议客户针对他们需要解决的每个使用案例在自己的内容上评估任何 AI 服务的性能。有关更多信息,请参阅《AWS 负责任地使用机器学习》指南和末尾的参考文献。 另请务必查看您计划使用的服务的 AWS 负责任的人工智能策略和 AWS 服务条款。
此 AI Service Card 适用于截至 2023 年 12 月 15 日最新版本的 Amazon Transcribe — Streaming(English-US)。
概述
借助 Amazon Transcribe,AWS 客户能够在支持语音的应用程序中添加语音转文本功能。通过使用自动语音识别(ASR)技术,客户可以将 Amazon Transcribe 用于各种业务用途。服务功能包括自动语音识别、说话者识别、个人身份信息(PII)编辑和语言识别;有关更多详细信息,请参阅文档。此 AI Service Card 描述了其中一项功能,即 Transcribe:StartStreamTranscription API 实施的 Transcribe — Streaming(English-US)。此功能以 8kHz 至 48khz 的采样率对音频执行 ASR。它负责处理来自联络中心呼叫以及新闻广播和体育赛事等媒体的实时音频流。有关音频文件中可用的语音 ASR(批处理模式),请参阅 Transcribe:StartTranscriptionJob API。
我们通过衡量 ASR 转录文本中所载单词与语音样本中所述单词(按人类听众转录文本中所载单词为准)的匹配程度,来评测 Transcribe Streaming 的质量。假设说话者说“This system can really recognize speech”,我们希望转录文本中包含所述单词,而不是记成“This system can wreck a nice beach”。 转录文本中可能会出现三种类型的错误:替换(如示例中将“recognize”替换成“wreck”)、插入(文本中出现额外的单词,如示例中的“nice”)和删除(文本缺少单词,如示例中的“really”)。正确转录的单词称为命中,质量指标取决于命中和错误的数量。我们采用单词错误率(错误数量除以所说的总字数)和单词识别的 F1 来表示数据集的整体性能,该值均匀地平衡正确预测单词的百分比(精度)与预测中包含正确单词的百分比(召回率)。
有多种因素会影响 ASR 系统的准确率。输入音频信号不是单纯的语音,而是语音经过各种混杂因素修改后的结果。不同演讲者对单词和话语的使用频率、发音方式以及单词组合方式存在差异。拼写和含义不同的单词在发音上可能没有区别。演讲者可能会同时说话或相互打断。录音设备在录音质量和相对于演讲者的位置(例如,远场与近场)方面会有所不同。录音环境受背景噪音水平、回声敏感度以及其他演讲者的影响。传输线路的噪音水平各不相同。Transcribe 旨在区分不同单词的音频,并且忽略混杂的变化。
预期使用案例和限制
与批处理相比,使用流式传输的优势包括应用程序的实时语音转文本功能以及更快的转录速度。然而,与批处理模式转录相比,这种速度的提高可能会影响准确性。Transcribe — Streaming(English-US)旨在处理包含自然人类语音的音频样本。该服务不用于处理机械或数字转换的语音或合成语音。它旨在转录美式英语单词;有关其他语言区域,请参阅支持的语言。Transcribe 支持大量通用词汇表;客户可以添加自定义词汇表和自定义语言模型,以涵盖来自专业领域的单词和短语。 Transcribe — Streaming(English-US)支持在包括呼叫中心监控、语音聊天、虚拟会议和现场活动字幕在内的许多应用程序中进行实时转录。下文描述了其中两个应用程序使用案例。
实时呼叫中心监控使用案例
呼叫中心监控应用程序使用 Transcribe Streaming 进行实时音频转录。此使用案例中的应用程序预期有两个或更多说话者,每个音频通道一个说话者,以及近场录音(说话者的嘴靠近麦克风)。此使用案例的混杂变量包括(1)来自呼叫者环境和联络中心操作员工作环境的高背景噪音;(2)呼叫者使用的录音设备。
直播活动隐藏字幕使用案例
直播活动隐藏字幕应用程序使用 Transcribe Streaming 向现场观众显示转录内容并进行媒体分析。此使用案例中的应用程序预期(1)有多个说话者;(2)所有说话者共享一个音频通道;(3)脚本语音中包含的填充词、停顿和间隔较少,但领域特定的行话较多;(4)以及较低的背景噪音水平和其他音频遮挡。由于使用了专业品质的录音设备,可以以最高的采样率捕获音频,因此混杂变量通常较低。
Amazon Transcribe — Streaming(English-US)
机器学习:使用 ML 和 ASR 技术构建 Transcribe。它的工作原理如下:(1)识别音频输入的相关声学特征。(2)根据这些特征生成一组候选单词级字符串。(3)应用语言建模对候选字符串进行排名,并返回排名靠前的转录。有关 API 调用的详细信息,请参阅开发人员文档。
性能预期:客户应用程序之间的个体差异和混杂差异将有所不同。这意味着即使应用程序支持相同的使用案例,其性能也会有所不同。以两个转录应用程序 A 和 B 为例。应用程序 A 支持电视访谈节目的视频字幕,每个录音通道有多个语音,采用高质量的悬吊麦克风,背景噪音可以忽略不计。应用程序 B 帮助联络中心录制客户呼叫,让客户在靠近麦克风的位置说话,每个录音通道只有一个语音,并且是非脚本化的客户对话。由于应用程序 A 和 B 的输入类型不同,因此即使假设每个应用程序都使用 Transcribe 完美部署,它们也可能会有不同的错误率。
测试驱动的方法:我们使用多个数据集来评估性能。我们无法采用单一评估数据集衡量整体性能。这是因为评估数据集因其人口构成(已定义群体的数量和类型)、混杂差异数量(内容质量、适合用途)、可用标签的类型和质量以及其他因素而有所不同。我们通过在评估数据集上进行测试来衡量 Transcribe 的性能,这些数据集包含来自代表最终用户群体的不同演讲者的录音,其中每段录音都标有演讲者的真实转录和人口统计属性。我们采用多个指标表示数据集的整体性能,包括单词错误率和 F1,其中 F1 百分比指标均匀地平衡正确预测单词的百分比(精度)与预测中包含正确单词的百分比(召回率)。数据集中的群体可以由人口统计属性(例如性别、年龄和血统)、混杂变量(例如录音设备品种、每位演讲者与录音设备的距离、后处理和背景噪音)或两者的混合来定义。不同的评估数据集因这些因素和其他因素而异。因此,所有指标(包括总体指标和群体指标)因数据集而异。考虑到这种差异,我们的开发过程使用多个评估数据集来检查 Transcribe 的性能,采取措施提高 Transcribe 性能最差的群体的准确性,努力改进评估数据集套件,然后进行迭代。
公平性与偏见:我们的目标是让 Transcribe — Streaming(English-US)在美式英语说话者可能使用的各种发音、语调、词汇和语法特征方面都能很好地发挥作用。我们考虑由区域定义的说话者社区,例如新英格兰南部或东部,以及由身份的多个维度(包括种族、年龄和血统)定义的社区。为此,我们使用上面描述的迭代开发过程。在此过程中,我们构建数据集,以涵盖各种混杂因素下广泛类型的人类演讲者。我们会在拥有可靠人口统计标签的数据集上定期进行测试。我们发现,Transcribe 在人口统计属性中表现良好。例如,在一个包含 65 个人口群体的数据集上,按年龄、血统、性别和方言(例如女性 + 南部低地、男性 + 45 岁以下)定义,我们发现对于每组说话人,F1 单词识别准确度为 91% 或更高。尽管 Transcribe — Streaming 会返回部分和完整的转录,但此测试的结果仅基于完整的转录。由于结果取决于 Transcribe、客户工作流程和评估数据集,因此我们建议客户针对自己的内容额外测试 Transcribe。
可解释性:当 Amazon Transcribe 转录音频时,它会为同一转录创建不同的版本,并为每个版本分配置信度分数。如果客户启用替代转录,Amazon Transcribe 会返回置信度较低的转录的替代版本。客户可以探索替代转录,以更深入地了解为每个音频输入生成的候选单词和短语。
稳定性:我们通过多种技术最大限度地提高稳定性,包括使用涵盖许多说话者中多种差异的大型训练数据集。Transcribe ASR 的理想音频输入包含具有高录音质量、低背景噪声和低室内混响的音频。但是,Transcribe 经过训练,即使输入与理想条件不同也可灵活处理,并且可以在嘈杂的多演讲者环境下表现优异。
隐私和安全性:Amazon Transcribe 仅处理音频输入数据。音频输入绝不会包含在服务返回的输出中。客户之间绝不会共享输入和输出。客户可以通过 AWS Organizations 或我们可能提供的其他选择退出机制选择退出有关客户内容的培训。有关更多信息,请参阅 AWS 服务条款第 50.3 节和 AWS 数据隐私常见问题。有关特定于服务的隐私和安全信息,请参阅 Transcribe 常见问题的“数据隐私”部分和 Amazon Transcribe 安全文档。
透明度:如果适合其使用案例,则鼓励将 Amazon Transcribe 纳入其工作流程的客户向最终用户和其他受应用程序影响的个人披露其使用 ML 和 ASR 技术的情况,并且支持最终用户提供反馈以改进工作流程。在其文档中,客户还可以引用此 AI Service Card。
治理:我们采用严格的方法,以负责任的方式构建我们的 AWS AI 服务,包括在设计阶段融入负责任人工智能的逆向工作产品开发流程,由专职的负责任人工智能科学和数据专家设计咨询和实施评估,执行例行测试,与客户共同审查,以及进行最佳实践开发、分发和培训。
部署和性能优化最佳实践
- 录音条件:工作流程应包括解决录音条件差异的步骤,例如在远离麦克风的位置或在嘈杂的条件下发言。如果差异很大,可以考虑提供所有最终用户都能获得的帮助和说明,并通过定期和随机采样输入来监控录音质量。
- 采样率:客户可以使用可选参数来指定其输入音频的采样率,可以是较低带宽(8kHz)或宽带(16kHz 至 48kHz)输入。
- 自定义词汇表:Transcribe 可识别各种说话者社区(方言区域、人口群体)中使用的词汇表。如果客户想要为特定域名或情况的单词(例如品牌名称或专有名词和首字母缩略词)提供额外支持,则其可以部署自定义词汇表来提高此类单词的转录准确性。有关更多信息,请参阅自定义词汇表的文档。
- 自定义语言模型:当客户应用程序必须处理复杂性超出单个单词的域特定语音时,客户可以使用自定义语言模型来提高转录的准确性。例如,在转录气候科学演讲的录音时,可以通过学习单词出现的上下文(例如“冰流”与“浮冰”)来提高转录的准确性。在此情况下,客户可以训练自定义语言模型来识别特殊术语。有关更多信息,请参阅自定义语言模型的文档。
- 词汇表筛选和 PII 修订:这些优化可以提高转录中所生成语言的安全性和隐私性。词汇表筛选可让客户根据其定义的列表掩蔽或移除转录结果中敏感或不适合受众的单词。PII 修订可让客户生成已移除 PII 的转录,适用于 Transcribe — Streaming(English-US)支持的 PII 类型。其中包括姓名、地址、信用卡号、SSN 等。有关更多信息,包括 PII 类型的完整列表以及对受监管工作负载使用 PII 修订的注意事项,请参阅词汇表筛选和 PII 修订的文档。
- 人为监督:如果客户的应用程序工作流程涉及高风险或敏感使用案例,例如影响个人权利或基本服务访问权限的决定,应该将人工审核纳入应用程序工作流程。ASR 系统可以充当工具,减少全人工解决方案所产生的工作量,并且支持用户快速审查和评测音频内容。
- 一致性:客户应针对允许的各种工作流程自定义和音频输入制定和执行策略,以及针对人工如何使用自己的判断来评测转录输出制定和执行策略。这些政策应始终一致地应用,特别是在不同的人口群体中应用时。不一致地修改音频输入可能会给不同的人口群体带来不公平的结果。
- 性能偏差:客户提交给 Transcribe 的音频类型的更改或服务的更改可能会导致不同的输出。为应对这些更改,客户应考虑定期重新测试 Transcribe 的性能,并在必要时调整工作流程。
更多信息
- 有关服务文档,请参阅转录。
- 有关支持的语言列表,请参阅支持的语言。
- 有关联络中心分析工作流程设计的示例,请参阅 Amazon Transcribe 呼叫分析。
- 有关隐私和其他法律注意事项的详细信息,请参阅法律、合规、隐私。
- 要帮助优化工作流程,请参阅 AWS 客户支持、AWS 专业服务团队、Amazon SageMaker Ground Truth Plus、Amazon Augmented AI。
- 如果您对 AWS AI Service Card 有任何疑问或反馈,请填写此表单。
词汇表
公平性和偏见是指人工智能系统如何影响不同的用户亚群(例如,按性别、种族)。
可解释性是指拥有理解和评估人工智能系统输出的机制。
稳定性是指拥有确保人工智能系统可靠运行的机制。
隐私与安全性是指保护数据免遭盗窃和泄露。
治理是指将最佳实践融入人工智能供应链,包括提供商和部署商。
透明度是指交流有关人工智能系统的信息,以便利益相关者能够就其是否使用该系统做出明智的选择。