一般性问题

问:什么是 Amazon Transcribe?

Amazon Transcribe 是一种可让客户轻松将语音转换为文本的 AWS 产品。采用自动语音识别 (ASR) 技术,客户可以选择将 Amazon Transcribe 用于各种业务应用程序,包括转录基于语音的客户服务通话、生成音频/视频内容字幕,以及对音频/视频内容执行(基于文本的)内容分析。 

问:Amazon Transcribe 如何与其他 AWS 产品交互?

Amazon Transcribe 可以将音频输入转换为文本,这为开发基于语音输入的各种文本分析应用程序打开了方便之门。例如,通过将 Amazon Comprehend 用于来自 Amazon Transcribe 的转换后文本数据,客户可以进行情绪分析或提取实体和关键短语。同样,通过将 Amazon Translate 与 Amazon Polly 集成,客户可以接收一种语言的语音输入,然后将其翻译为另一种语言并生成语音输出,从而有效地实现多种语言对话。还可以将 Amazon Transcribe 与 Amazon Elasticsearch 集成,以便在音频/视频库内编写索引并执行基于文本的搜索。 

问:我在使用 Amazon Transcribe 服务之前还应了解什么?

Amazon Transcribe 服务旨在处理各种语音和声学特征,包括音量、音调和语速的变化。音频信号的质量和内容(包括但不限于背景噪音、扬声器重叠、口音或一个音频文件内语言间的切换等因素)可能会影响服务输出的准确性。我们在不断更新服务,以改进其适应其他声音变化和内容类型的能力。 

使用 Amazon Transcribe

问:开发人员将如何访问 Transcribe?

开始使用 Amazon Transcribe 的最简单的方法是使用控制台提交任务来转录音频文件。您也可以从 AWS 命令行界面直接调用该服务,或使用您选择的任一受支持的软件开发工具包,将其与您的应用程序集成。无论哪种方式,您都只需几行代码即可开始使用 Amazon Transcribe 为音频文件生成自动转录。

问:Amazon Transcribe 支持哪些类型的输入?

Amazon Transcribe 支持 16kHz 和 8kHz 音频流以及多种音频编码,包括 WAV、MP3、MP4 和 FLAC。

问:Amazon Transcribe 是否支持实时转录?

支持。Amazon Transcribe 使用户能够通过 HTTP2 打开双向流。用户可以在接收返回的文本流的同时,将音频流实时发送到服务。 

问:实时转录支持哪种编码?

流式转录目前支持 16 位线性 PCM 编码。 

问:Amazon Transcribe 支持哪些语言?

有关语言支持的信息,请参阅此文档页面。 

问:哪些设备可以使用 Amazon Transcribe?

在很大程度上,Amazon Transcribe 不受设备影响。一般而言,具有内置麦克风的任何设备都可以使用 Amazon Transcribe,例如手机、PC、平板电脑和物联网设备 (如车载音频系统)。Amazon Transcribe API 将能够检测在设备上输入的音频流质量(8Khz 或 16Khz),并相应地选择用于将语音转换为文本的声学模型。此外,开发人员可以通过其应用程序调用 Transcribe API 来使用语音到文本转换功能。 

问:Amazon Transcribe 可以处理的音频内容是否有大小限制?

对于我们的批处理服务,Amazon Transcribe 服务调用限制为每个 API 调用 4 个小时(或 2GB)。流式处理服务可以容纳长达 4 小时的开放式连接。 

问:Amazon Transcribe 支持哪些编程语言?

Amazon Transcribe 批处理服务支持 .NET、Go、Java、Javascript、PHP、Python 和 Ruby。
Amazon Transcribe 实时服务支持 Java 开发工具包、Ruby 开发工具包和 C++ 开发工具包。对其他开发工具包的支持也即将推出。有关更多详细信息,请访问资源页面。 

问:我的自定义词汇表中的单词总是无法识别! 该怎么办?

除了自定义词汇表条目之外,语音识别输出还取决于许多因素,因此可能无法保证自定义词汇表中的术语会被正确识别。
但是,最常见的原因是自定义单词缺少正确的发音。如果您还没有为自定义单词提供发音,请尝试创建发音。如果您已提供发音,请仔细检查其正确性,或者根据需要添加其他发音形式。这可以通过在自定义词汇表文件中创建发音字段不同的多个条目来实现。

问:为什么我的输出中出现过多自定义单词?

自定义词汇表针对一小部分目标单词进行了优化;如果词汇表较大,可能会导致过度生成自定义单词,尤其是当词汇表中包含发音相似的单词时。如果您的词汇表较大,请尝试将其缩小为生僻字和实际上预计会出现在音频文件中的单词。如果您有一个涵盖多个使用案例的大型词汇表,请将它分成针对不同使用案例的单独列表。简短且发音与许多其他单词相似的单词可能会导致过度生成(输出中出现过多自定义单词)。最好将这些单词与周围的单词组合,并将它们列为连字符分隔的短语。例如,自定义单词“A.D.”可以作为“A.D.-converter”这类短语的一部分。

问:IPA 或 SoundsLike 字段这两种方式均可在自定义词汇表中提供发音。哪种方式更好?

IPA 可提供更精确的发音。如果您能够生成 IPA(例如,通过具有 IPA 发音的词典或在线转换器工具生成),则应提供 IPA 发音。

问:我想使用 IPA,但我不是语言专家。有没有我可以使用的在线工具?

牛津英语词典或剑桥词典(包括在线版本)等多种标准词典均可在 IPA 中提供发音。此外,还有在线转换器(例如英文版 easypronunciation.comtophonetics.com),但请注意,在大多数情况下,这些工具基于底层词典,可能无法为某些单词(如专有名词)生成正确的 IPA。Amazon Transcribe 不为任何第三方工具做宣传。

问:我是否需要使用针对同一语言不同口音的不同 IPA 标准?(例如美国英语与英国英语)?

您应使用适合您要处理的音频文件的 IPA 标准,例如,如果您希望处理来自英国英语讲话者的音频,请使用英国英语发音标准。对于 Amazon Transcribe 支持的不同语言和方言,允许的 IPA 符号集可能会有所不同;请确保您的发音仅包含允许的字符。有关 IPA 字符集的详细信息,请参阅文档:https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html#charsets

问:如何在自定义词汇表中使用 SoundsLike 字段提供发音?

您可以将单词或短语分成更小的片段,并使用相应语言的标准拼写法为每个片段提供发音,以模仿单词的发音方式。例如,在英语中,您可以为短语 Los-Angeles 提供如下发音提示:loss-ann-gel-es。单词“Etienne”的发音提示就像这样:eh-tee-en。用连字符 (-) 分隔发音提示的各个部分。您可以针对输入语言使用任何允许的字符。

问:如何使用提供首字母缩略词的两种不同方式(有句点、无句点但有发音)?

如果您使用包含句点的首字母缩略词,拼写发音将在内部生成。如果您不使用句点,请在发音字段中提供发音。对于某些首字母缩略词,很难听出它们是具有拼写发音还是类似于单词的发音,例如,NATO 通常发音为“n eɪ t oʊ”(nay-toh),而不是“ɛn eɪ ti oʊ”(N. A.T. O.)。

问:在哪里可以找到如何使用自定义发音的示例?

您可以在以下文档中找到样本输入格式和相关示例:https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html

问:如果我使用错误的 IPA 会发生什么情况? 在我不确定的情况下,是否最好不要输入任何 IPA?

系统将使用您提供的发音;如果发音正确并且与所说的单词相匹配,应该可以增加正确识别单词的可能性。如果您不确定生成的 IPA 是否正确,请通过使用包含 IPA 发音的词汇表和仅包含单词的词汇表(可以选择 display-as 表单)处理您的音频文件来进行比较。如果您不提供任何发音,该服务将使用近似发音,这可能比您输入的发音好,也可能还不如您输入的发音。

问:使用 DisplayAs 表单时,是否可以显示与被转录的原始语言无关的字符集?(例如,将“Street”输出为“街道”)

可以。虽然短语只能对特定语言使用受限制的字符集,但在 DisplayAs 列中允许使用除 \t (TAB) 之外的 UTF-8 字符。

问:Transcribe 的批处理和流处理 API 是否都可以使用自动内容修订?

否,该功能现在仅可用于批处理 API。

问:自动内容修订支持哪些语言?

现在支持美国英语 (en-US)。

问:自动内容修订功能是否还会修订源音频中的个人敏感信息?

否,此功能不会从源音频中删除个人敏感信息。但您可以使用开始和结束时间戳自行修订源音频中的个人信息,这些时间戳提供在已识别 PII 语句的每个实例的修订记录中。

问:我能否使用自动内容修订功能修订现有文本转录中的个人信息?

不能,自动内容修订只能用于作为输入的音频文件。

问:我在使用自动内容修订功能前还应了解什么?

自动内容修订功能旨在识别和删除个人身份信息 (PII),但由于机器学习的预测性质,它可能无法识别并删除服务所生成的记录中的所有 PII 实例。您应该查看自动内容修订功能提供的所有输出,以确保它符合您的需求。

定价和可用性

问:如何收费?

有关更多信息,请参阅 Amazon Transcribe 定价页面。

问:哪些 AWS 区域提供 Amazon Transcribe?

请参阅 AWS 全球基础设施区域表

数据隐私

问:Amazon Transcribe 是否会存储处理过的语音输入?AWS 如何使用这些输入?

Amazon Transcribe 会存储和使用服务处理过的语音输入,这样做只是为了提供和维护服务以及改进和提高 Amazon Transcribe 和其他亚马逊机器学习/人工智能技术的质量。为了持续改善您的 Amazon Transcribe 客户体验并促进相关技术的开发和训练,我们重视使用您的内容。我们不会根据您的内容中可能包含的任何个人身份信息来向您或您的最终用户推荐产品、服务或进行营销。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当且先进的技术和物理控制措施(包括静态和动态加密)来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/。您可以通过使用 AWS Organizations 退出策略选择不再使用您的内容来改进或提高 Amazon Transcribe 及其他 Amazon 机器学习/人工智能技术的质量。有关如何退出的信息,请参阅管理 AI 服务退出策略

问:我可否删除与 Amazon Transcribe 存储的转录作业相关的数据和构件?

可以。您可以使用提供的 Delete API 删除与转录作业相关的数据和其他构件。如果在此过程中遇到问题,请联系 AWS Support。

问:谁有权访问 Amazon Transcribe 处理和存储的内容?

只有经过授权的员工才能访问 Amazon Transcribe 处理的内容。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当且先进的技术和物理控制措施(包括静态和动态加密)来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/

问:由 Amazon Transcribe 处理和存储的内容是否仍归我所有?

您始终保留对您的内容的所有权,我们只会在您同意的情况下使用您的内容。

问:在训练自定义语言模型时使用的数据会发生什么变化? 我是否仍拥有它?

提交用于训练专用模型的文本数据时,客户既拥有原始文本数据的所有权,也拥有生成的自定义模型的所有权。将不会存储文本数据,也不会将其用于改进我们的通用语音识别引擎。使用 CLM 生成的模型是独立模型,并且只能由客户访问。

问:由于该服务将不会保留我的训练数据,转录质量或整体服务体验是否存在任何缺点或下降?

我们的服务不会存储您的训练数据,不会导致转录质量下降。使用训练数据实际生成自定义语言模型后,您可以自行决定模型本身是否可以重复使用。您上传的原始训练集将从我们的系统中删除。唯一的缺点是如果您需要技术支持。由于我们不会保留您的原始训练数据,因此如果您要求支持团队调查潜在的服务问题,我们将无法方便地访问这些资产或相关的中间构件。仍将提供支持,但不是很方便,因为我们可能需要您提供其他信息。

问:如何将数据重复用于未来的模型更新或改进?

由于未存储训练数据,因此必须重新上传相同的数据集和所有其他数据才能训练新模型。当 Amazon Transcribe 提供的基本模型有更新时,将通知您。要利用最新的基本模型,您应该提交数据以训练新模型。然后,您将拥有之前生成的原始自定义模型以及要使用的新版本。

问:如何删除模型?

用户能够删除自己决定生成的任何客户语言模型。

问:Amazon Transcribe 处理的内容是否会移出到我使用 Amazon Transcribe 所在的 AWS 区域之外?

Amazon Transcribe 处理的任何内容都会被加密,并静态存储在您使用 Amazon Transcribe 所在的 AWS 区域中。Amazon Transcribe 处理的部分内容可能存储在另一个 AWS 区域中,仅用于持续改进和开发您的 Amazon Transcribe 客户体验及其他 Amazon 机器学习/人工智能技术。如果您通过联系 AWS Support,选择不再使用您的内容来提高 Amazon Transcribe 及其他 Amazon 机器学习/人工智能技术的质量,您的内容将不会存储在其他 AWS 区域中。您可以联系 AWS Support 请求删除与您的账户相关的语音输入。您的信任以及隐私与内容的安全性是我们最重视的问题,我们会采取适当并且先进的技术和物理控制措施 (包括静态和动态加密) 来防止他人未经授权访问或披露您的内容,并确保我们依照对您的承诺使用您的内容。有关更多信息,请参阅 https://aws.amazon.com/compliance/data-privacy-faq/

问:是否可以将 Amazon Transcribe 用于面向不满 13 周岁的儿童并受《儿童网络隐私保护法》(COPPA) 约束的网站、项目或其他应用程序?

可以。但您需要遵守 Amazon Transcribe 服务条款,包括按照 COPPA 的要求提供必要的通知并获得必要的、可验证的家长同意,才能将 Amazon Transcribe 用于全部或部分面向不满 13 周岁儿童的网站、项目或其他应用程序。

问:怎样确定我的网站、项目或应用程序是否受 COPPA 的约束?

要了解 COPPA 的要求并获取关于如何确定您的网站、计划或其他应用程序是否受 COPPA 约束的指南,请直接参阅美国联邦贸易委员会提供并维护的各种资源。该网站还提供有关如何确定某种服务是否全部或部分针对不满 13 岁儿童的信息。

Amazon Transcribe Medical

问:Amazon Transcribe Medical 是什么?

Amazon Transcribe Medical 是一种自动语音识别 (ASR) 服务,让开发人员能够轻松地为其应用程序添加医疗语音转文本功能。使用 Amazon Transcribe Medical,您可以出于各种目的快速、准确地将医疗诊断和对话性语音转录成文本,例如记录医生笔记或在下游文本分析中进行处理以提取有意义的见解。

问:Amazon Transcribe Medical 有什么用处?

Amazon Transcribe Medical 使用先进的机器学习模型将医学语音准确地转录为文本。Transcribe Medical 可以提供可用于支持各种使用案例的通用文字记录,涵盖从临床文档工作流程和药物安全监控(药物警戒)到远程医疗字幕的使用场景,甚至覆盖医疗保健和生命科学领域的联络中心分析。

问:要使用 Amazon Transcribe Medical,我是否需要成为自动语音识别 (ASR) 方面的专家?

否,您不需要具备任何 ASR 或机器学习专业知识即可使用 Amazon Transcribe Medical。您只需要调用 Transcribe Medical 的 API,该服务即可在后端处理所需的机器学习任务,以将医学语音转录为文本。

问:如何开始使用 Amazon Transcribe Medical?

您可以通过 AWS 管理控制台或开发工具包开始使用 Amazon Transcribe Medical。有关详细信息,请参阅此技术文档页面

Amazon Transcribe Medical 提供了免费套餐以便您试用此服务。有关更多信息,请参阅此定价页面。

问:Amazon Transcribe Medical 支持哪些语言?

Amazon Transcribe Medical 目前支持美国英语的医学转录。

问:Amazon Transcribe Medical 支持哪些医学专业?

Amazon Transcribe Medical 支持初级治疗信息的转录,涵盖家庭医学、内科医学、儿科和 OB-GYN 等专业。

问:Amazon Transcribe Medical 在哪些 AWS 区域可用?

Amazon Transcribe Medical 目前已在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、加拿大(中部)、欧洲(爱尔兰)和亚太地区(悉尼)区域推出。

问:Amazon Transcribe Medical 如何定价?

请参阅 Amazon Transcribe Medical 定价页面详细了解定价详情。

问:Amazon Transcribe Medical 是否符合 HIPAA 要求?

是的。

问:除为了提供此服务以外,Amazon Transcribe Medical 处理的内容是否会被用于任何其他目的?

除为了提供和维护此服务外,Amazon Transcribe Medical 不会以任何其他理由使用此服务处理的内容。该服务处理的内容不会用于开发或改善 Amazon Transcribe Medical 或任何其他 Amazon 机器学习/人工智能技术的质量。

问:Amazon Transcribe Medical 是否在不断学习?

是的,Amazon Transcribe Medical 采用机器学习技术,并会不断受到训练,以便在客户使用案例中表现得更出色。Amazon Transcribe Medical 不会存储或利用该服务所用的客户数据来训练模型

问:在使用 Amazon Transcribe Medical 服务之前,我还应具备哪些其他知识?

Amazon Transcribe Medical 并不能代替专业的医学意见、诊断或治疗。您和您的最终用户应依据自己的斟酌、经验和判断来确定 Amazon Transcribe Medical 提供的任何信息的正确性、完整性、及时性和适合性。您和您的最终用户对于在使用 Amazon Transcribe Medical 基础上作出的任何决策、意见、行动和/或不作为全权负责。您负责审核 Amazon Transcribe Medical 提供的任何输出以确保它满足您的需求。

自定义语言模型

问:自定义语言模型目前提供了哪些功能?

自定义语言模型 (CLM) 目前支持美国英语转录。它作为 Amazon Transcribe 批量音频处理 API 的一部分提供。CLM 不同时支持自定义词汇表的附加使用。

问:我需要的训练数据量和类型是什么? 如何获取数据? 数据是否需要具有特定的格式?

文本数据应与要使用自定义模型进行转录的音频相关;它应包含尽可能多的特定于域的单词、短语和单词组合。我们建议在运行文本中使用至少 10 万和最多 1000 万个单词。可以从任何内部或公共来源获得文本数据资源(例如,使用来自客户网站的文本)。我们建议每个纯文本文件包含 20 万个单词或更多,但总文件大小不要超过 1GB。文本应采用 UTF-8 格式,并且每行使用一个句子。每个句子都应包含标点符号。用户负责检查拼写、删除格式字符并验证编码。

问:如何使用自定义语言模型 (CLM)?

要训练自定义语言模型,客户只需在 Amazon S3 存储桶中提供文本数据即可。然后,用户可以使用 Amazon Transcribe 服务控制台加载和处理数据以训练自定义语言模型。训练是全自动化的过程,只需用户最少的干预。当最终自定义模型准备就绪后,将在客户的 AWS 账户中提供,以用于转录特定于域的音频文件。此外,客户可以训练多个自定义模型以用于各种不同的使用案例。

问:是否保证有所改进? 是否值得花精力来收集文本数据?

不能保证有所改进 – 性能的变化将取决于文本数据与音频的匹配程度以及所提供的数据量。通常,数据越多越好,但最重要的是,这些数据应涵盖您打算转录的音频文件中预期出现的单词和单词序列。转录准确性的提高将取决于训练数据量和使用案例。在某些情况下,常规基准测试表明相对准确性会提高 10% 至 15%。

问:模型训练需要多长时间? 何时才能使用它?

模型训练通常需要 6 到 10 个小时。训练时间的长短取决于数据集的大小。完成训练后,将直接提供自定义模型。

问:如何使用模型? 如何知道它是否比 Amazon Transcribe 提供的通用模型更好?

该模型将采用客户在训练开始之前指定的模型 ID 在客户账户中提供。为了使用模型,需要将具有模型 ID 的标志添加到转录请求中。客户应在其音频文件上测试模型,并将输出与从通用引擎获得的结果进行比较。

问:我可以训练多少个自定义语言模型? 是否可以同时为我的账户启用多个模型?

您可以在任何给定的时间为每个 AWS 账户同时训练最多 5 个不同的模型。对于每个账户,默认情况下最多可以存储 10 个模型。如果需要更多模型,可以在此处增加服务限制。

问:是否支持自定义声学模型?

否。不支持自定义声学模型。自定义语言模型是基于与使用案例或域相关的文本数据构建的。

了解有关 Amazon Transcribe 定价的更多信息

访问定价页面
准备好开始使用了吗?
试用 Amazon Transcribe 控制台
还有更多问题?
联系我们