亚马逊AWS官方博客
Amazon Chime SDK 呼叫分析:实时语调分析和演讲者搜索
今天,我很高兴地宣布,Amazon Chime SDK 呼叫分析已经上线。这是一套包含了转录、语音语调分析和演讲者搜索的新功能套件,有助于更加经济便捷地录制实时音频通话并生成见解。我们还改进了 AWS 管理控制台的 Amazon Chime SDK 部分,让您只需几个步骤即可将基于机器学习(ML)的服务(比如这些新的呼叫分析功能或 Amazon Transcribe)集成到您的音频应用程序中。
语音分析:语音语调分析和演讲者搜索
语音分析可提供对音频对话的实时见解。它有助于检测并分类表达了积极、中立或消极语气的参与者。通常,从事受监管行业的企业有义务记录、同时也有意分析员工与其业务合作伙伴、客户或供应商之间的对话。
语音语调分析使用 ML 基于对词汇、语言信息、声学和音调信息的联合分析从语音信号中提取情绪。实时呼叫的语音语调分析在您选择的数据湖中提供,在此基础上,您可以创建自己的控制面板来可视化数据。
让我们举一个金融行业的例子。交易室主管有时需要记录现场发生的所有交易对话。语音语调分析可以帮助他们满足监管要求。他们还可以向交易员提供这些见解,以帮助提高他们的工作效率。但是,金融行业并不是唯一需要记录和分析呼叫的行业。我们收到了来自业务流程外包(BPO)、公共部门、医疗保健、电信和保险行业客户的类似请求。
除了语音语调分析外,在您的应用程序中,还可发挥演讲者搜索的作用,帮助将演讲者与现有数据库进行匹配。只需要一个简短的样本,它就可以根据存储在已知语音数据库中的语音识别演讲者。演讲者搜索可帮助您的应用程序更快地查找呼叫者,并通过划分身份归属来丰富呼叫记录和转录。演讲者搜索会给出推测演讲者的唯一内部标识符,并给出置信度分数。是否将当前演讲者与贵组织内的已知演讲者相匹配,则取决于您的应用程序。我们的一些客户计划使用演讲者搜索来实时标记共享的交易系统设备上发生的通信。
在 AWS 管理控制台中与 AI 服务集成
我们希望让开发人员能够更轻松地将这些功能添加到现有的电话应用程序中,而无需具备电话、云基础设施或 AI 方面的专业知识。
这就是为什么我们为控制台的 Amazon Chime SDK 部分添加了更易于使用的图形配置。在控制台上,您可以选择要用于分析实时音频数据的 AWS AI 服务:语音分析、Amazon Transcribe 或 Amazon Transcribe 呼叫分析。无论您选择使用语音分析还是 Amazon Transcribe 来生成见解,都无需编写任何集成代码。我们管理与 AWS AI 服务以及基于语音或电话应用程序的集成。控制台可帮助您定义要将分析数据发送到何处:Amazon Kinesis 流或 Amazon Simple Storage Service(Amazon S3)存储桶。语音分析可以向部署在 AWS Lambda 上的函数、SQS 队列或 Amazon Simple Notification Service(Amazon SNS)主题发送实时通知。
为了可视化见解,呼叫分析还会向您选择的数据湖提供分析。然后,您就可以使用 Amazon QuickSight 或 Tableau 来构建控制面板,并从实时媒体获取见解。这些控制面板可以嵌入到 app、wiki 和门户中。当然,我们不会只是把数据提供给您。您可以将预先构建的控制面板下载为 AWS CloudFormation 模板,然后部署到您自己的 AWS 账户中。控制台上提供了下载这些模板的链接。
最后,呼叫分析可以通过将事件发布到 Amazon EventBridge 来生成实时警报。您可以将这些事件路由到您选择的任何目的地,比如您的 AWS 账户,或是其他支持的第三方应用程序上。
借助呼叫分析,您可以将从实时音频中获取见解的初始项目时间从几个月缩短到几天。
工作原理
我想向大家展示一下其工作原理。
在控制台的 Amazon Chime SDK 部分中,我从左侧菜单的 Call Analytics(呼叫分析)打开 Configuration(配置)。然后选择 Create configuration(创建配置)。
我为我的配置进行了命名。或者,我也可以对其关联标签。
在 Configure analytics service(配置分析服务)下,我可以选择是使用 Amazon Chime SDK 语音分析还是 Amazon Transcribe 服务来分析呼叫。在本演示中,我选择了 Voice analytics(语音分析)。
我配置了要将分析发送到何处。语音分析结果始终发送到 Kinesis。我指定了我之前创建的一个 Kinesis 数据流。当我想使用商业智能工具(如 Quicksight)创建包含分析结果的控制面板时,我还指定了一个 S3 存储桶来接收分析。
控制面板还为我提供了 CloudFormation 模板的链接,我可以使用这些模板来创建语音分析控制面板。
最后,我选择了一个 Lambda 函数、SQS 队列或 SNS 主题,它将接收事件通知,例如,分析处于可用状态、发生了新的语音注册或语音验证有了结果。在后一种情况下,有效负载如下所示:
{
...common to all events...
"detail-type": "SpeakerSearchStatus",
"detail": {
"taskId": "uuid",
"detailStatus": "IdentificationSuccessful",
"speakerSearchDetails" : {
"results": [
{
"voiceProfileId": "guid",
"confidenceScore": "0.94",
},
{
"voiceProfileId": "guid",
"confidenceScore": "0.92",
},
{
"voiceProfileId": "guid",
"confidenceScore": "0.91",
},
... (up to 10)
]
},
"isCaller": false,
"voiceConnectorId": "guid",
"transactionId": "guid"
...details from Voice connector
}
}
在本演示中,我选择了一个现有的 SQS 队列。
在 Consent acknowledgment(同意确认)下,我选中所有框,然后选择 Next(下一步)。
只有当我在上一步中没有指定任何分析服务时,下一步才可用。它允许我们配置录音。如果未选择任何分析,则可以进行录制。
在 Configure access permissions(配置访问权限)下,我选择一个先前创建的 AWS Identity and Access Management(IAM)角色,允许 Amazon Chime SDK 访问我配置的其他 AWS 服务:Kinesis 数据流、S3 存储桶和 Lambda 函数、SQS 队列或 SNS 主题。如果我还没有 IAM 角色,控制台可能会为我创建一个。
如果我在 Configure analytics service(配置分析服务)下选择了 Amazon Transcribe 服务,则下一步可用。它允许我通过 EventBridge 配置实时警报。我可以配置规则,根据关键字匹配、检测到的情绪或问题检测发送消息。
最后一步是查看并创建我的配置。我查看了配置详细信息,然后选择 Create configuration(创建配置)。
最后,我将此配置链接到 Streaming(流媒体)选项卡中 Voice Connector(语音连接器)部分下的语音连接器。
就这么简单! 正如我之前提到的,无需 AWS 服务粘附或 AI 知识即可使用。
在数据到达 Kinesis 或 S3 存储桶后,您可以将首选的业务报告解决方案指向它。当您使用我们提供的 QuickSight 模板时,您可以在几分钟内获得高级概述和深度分析视图,如以下屏幕截图所示。
深度分析控制面板以图形方式呈现了座席与客户的情绪情感分布。您还可以获得对话的详细分析和记录。
定价和可用性
在音频应用程序中采用这些功能不需要前期基础设施投资;仅根据您的使用情况付费。定价按每分钟分析的音频数据计算。有关详细信息,请访问 Amazon Chime SDK 定价。
以下 AWS 区域提供呼叫分析:美国东部(俄亥俄州、弗吉尼亚北部)、亚太地区(新加坡)和欧洲地区(法兰克福)。
在这篇文章中,我讨论了 Amazon Chime SDK 呼叫分析,这是一套包含了转录、语音语调分析和演讲者搜索的新功能套件,有助于更加经济便捷地录制实时音频通话并生成见解。由于注重易用性,这些新功能特别适合对云基础设施、电话和机器学习了解不多的客户。
立即开始配置您的第一个控制面板!