亚马逊AWS官方博客
Amazon Transcribe 现已推出
在 AWS re:Invent 2017 上,我们通过私有预览发布了 Amazon Transcribe。今天,我们高兴地向所有开发人员推出 Amazon Transcribe。Amazon Transcribe 是一种自动语音识别 (ASR) 服务,让开发人员能够轻松地为其应用程序添加语音转文本功能。我们通过预览中迭代客户的反馈,对 Amazon Transcribe 进行了一些增强。
GA 中的新 Amazon Transcribe 功能
首先,我们将 SampleRate
参数设置为可选,这意味着您只需知道介质的文件类型以及输入语言即可。我们已经增添了两种新功能 – 能够在音频中区分多位发言者以提供更加清晰易懂的文稿(“发言者及时间”),以及有助于提高产品名称、行业特有术语或个体名称的语音识别准确度的定制词汇表。让我们来看下面的简洁示例,以重新了解 Amazon Transcribe 的工作原理。我将在 S3 存储桶中转换此音频。
import boto3
transcribe = boto3.client("transcribe")
transcribe.start_transcription_job(
TranscriptionJobName="TranscribeDemo",
LanguageCode="en-US",
MediaFormat="mp3",
Media={"MediaFileUri": "https://s3.amazonaws.com/randhunt-transcribe-demo-us-east-1/out.mp3"}
)
这将输出类似下文的 JSON(我已去掉了大多数回应),识别出了每位发言者:
{
"jobName": "reinvent",
"accountId": "1234",
"results": {
"transcripts": [
{
"transcript": "Hi, everybody, i'm randall ..."
}
],
"speaker_labels": {
"speakers": 2,
"segments": [
{
"start_time": "0.000000",
"speaker_label": "spk_0",
"end_time": "0.010",
"items": []
},
{
"start_time": "0.010000",
"speaker_label": "spk_1",
"end_time": "4.990",
"items": [
{
"start_time": "1.000",
"speaker_label": "spk_1",
"end_time": "1.190"
},
{
"start_time": "1.190",
"speaker_label": "spk_1",
"end_time": "1.700"
}
]
}
]
},
"items": [
{
"start_time": "1.000",
"end_time": "1.190",
"alternatives": [
{
"confidence": "0.9971",
"content": "Hi"
}
],
"type": "pronunciation"
},
{
"alternatives": [
{
"content": ","
}
],
"type": "punctuation"
},
{
"start_time": "1.190",
"end_time": "1.700",
"alternatives": [
{
"confidence": "1.0000",
"content": "everybody"
}
],
"type": "pronunciation"
}
]
},
"status": "COMPLETED"
}
定制词汇表
现在,如果我需要与同事进行更复杂的技术讨论,我可以创建定制词汇表。定制词汇表指定为一系列传递到 CreateVocabulary
API 的字符串,您可以将其名称纳入 StartTranscriptionJob
API 调用中的 Settings
,以在转录作业中包含您的定制词汇表。单个词汇表的大小不能超过 50KB,每个短语长度必须小于 256 个字符。如果我想转录我的中学 AP Biology 班的记录,我可以像下面这样在 Python 中创建定制词汇表:
import boto3
transcribe = boto3.client("transcribe")
transcribe.create_vocabulary(
LanguageCode="en-US",
VocabularyName="APBiology"
Phrases=[
"endoplasmic-reticulum",
"organelle",
"cisternae",
"eukaryotic",
"ribosomes",
"hepatocyes",
"cell-membrane"
]
)
我随后可以按名称 APBiology
查阅此词汇表,并根据在文稿中可能找到的错误通过编程方式进行更新。
现已推出
目前,Amazon Transcribe 已在美国东部(弗吉尼亚北部)、美国西部(俄勒冈)、美国东部(俄亥俄)和欧洲(爱尔兰)推出。Transcribe 的免费套餐在前 12 个月中可为您提供每月 60 分钟的免费文稿,此后则按每秒音频 0.0004 美元的费率现付,最低收费时长为 15 秒。
与其他工具和服务结合后,我认为 Transcribe 为应用程序开发全面打开了机会的大门。我非常高兴看到我们的技术开发人员构建这种新服务。
– Randall