Amazon Web Services 한국 블로그
Amazon Chime SDK 통화 분석 기능 – 실시간 음성 톤 분석 및 화자 검색
Amazon Chime SDK 통화 분석 기능을 정식 출시합니다. 이 기능은 실시간 오디오 통화를 보다 쉽고 비용 효율적으로 기록하고 생성하는 데 도움이 되는 새로운 기능 세트(예: 트랜스크립션, 음성 톤 분석 및 화자 검색)입니다. 또한, AWS Management Console의 Amazon Chime SDK 섹션을 개선하여 이러한 새로운 통화 분석 기능 또는 Amazon Transcribe와 같은 기계 학습(ML) 기반 서비스를 몇 단계만 거치면 오디오 애플리케이션에 통합할 수 있습니다.
음성 분석: 음성 톤 분석 및 화자 검색
음성 분석은 오디오 대화에 대한 실시간 인사이트를 제공합니다. 긍정적, 중립적 또는 부정적 어조를 나타내는 참가자를 감지하고 분류하는 데 도움이 됩니다. 일반적으로 규제 대상 산업에 종사하는 기업은 직원과 비즈니스 파트너, 고객 또는 공급업체 간의 대화를 녹음할 의무가 있거나 분석하고자 합니다.
음성 톤 분석에서는 ML을 사용하여 어휘적 및 언어적 정보뿐만 아니라 음향 및 톤 정보의 공동 분석을 기반으로 음성 신호에서 감정을 추출합니다. 실시간 통화에 대한 음성 톤 분석은 선택한 데이터 레이크에서 제공되며, 그 위에 자체 대시보드를 만들어 데이터를 시각화할 수 있습니다.
금융 업계의 예를 들어보겠습니다. 트레이딩 룸 감독자는 때때로 플로어에서 일어나는 모든 거래 대화를 녹음해야 합니다. 음성 톤 분석을 통해 규제 요구 사항을 충족할 수 있습니다. 또한 이러한 인사이트를 트레이더에게 제공하여 생산성을 향상시킬 수 있습니다. 그러나 통화를 녹음하고 분석해야 하는 업계는 금융뿐만이 아닙니다. Business Process Outsourcing(BPO), 공공 부문, 의료, 통신 및 보험 업계의 고객으로부터 유사한 요청을 받았습니다.
이제 애플리케이션은 음성 톤 분석과 함께 화자 검색 기능을 활용하여 기존 데이터베이스와 화자를 일치시킬 수 있습니다. 알려진 음성 데이터베이스에 저장된 음성을 기반으로 화자를 인식하는 데 짧은 샘플만 있으면 됩니다. 화자 검색은 애플리케이션이 발신자 조회를 신속하게 처리하고 ID 어트리뷰션을 통해 통화 기록 및 대화 내용을 보강하는 데 도움이 됩니다. 화자 검색은 화자에 대해 제안된 고유 내부 식별자와 신뢰도 점수를 제공합니다. 현재 화자를 조직의 알려진 화자와 일치시키는 결정은 애플리케이션에 달려 있습니다. 일부 고객은 공유 장치인 트레이딩 터렛에서 발생하는 통신에 대해 화자 검색을 사용하여 실시간 화자 라벨링을 사용할 계획입니다.
AWS Management Console의 AI 서비스와의 통합
우리는 개발자가 전화 통신, 클라우드 인프라 또는 AI에 대한 전문 지식 없이도 기존 전화 통신 애플리케이션에 이러한 기능을 더 쉽게 추가할 수 있도록 하고자 합니다.
이것이 바로 콘솔의 Amazon Chime SDK 섹션에 사용하기 쉬운 그래픽 구성을 추가한 이유입니다. 콘솔에서 실시간 오디오 데이터를 분석하는 데 사용할 AWS AI 서비스(음성 분석, Amazon Transcribe 또는 Amazon Transcribe Call Analytics)를 선택할 수 있습니다. 음성 분석을 사용하든 Amazon Transcribe를 사용하여 인사이트를 생성하든 통합 코드를 작성할 필요가 없습니다. AWS AI 서비스와 음성 기반 또는 전화 통신 애플리케이션과의 통합을 관리합니다. 콘솔을 사용하면 분석 데이터를 전송할 위치(Amazon Kinesis 스트림 또는 Amazon Simple Storage Service(S3) 버킷)를 정의하는 데 도움을 받을 수 있습니다. 음성 분석은 AWS Lambda에 배포된 함수, SQS 대기열 또는 Amazon Simple Notification Service(SNS) 주제에 실시간 알림을 보낼 수 있습니다.
통화 분석은 인사이트를 시각화하기 위해 선택한 데이터 레이크에 분석을 제공하기도 합니다. 그런 다음 Amazon QuickSight 또는 Tableau를 사용하여 대시보드를 구축하고 실시간 미디어에서 인사이트를 얻을 수 있습니다. 이러한 대시보드는 앱, Wiki 및 포털에 내장될 수 있습니다. 물론, 귀하의 데이터를 귀하에게만 맡기지는 않습니다. 사전 구축된 대시보드를 AWS CloudFormation 템플릿으로 다운로드하여 자신의 AWS 계정에 배포할 수 있습니다. 이러한 템플릿을 다운로드할 수 있는 링크는 콘솔에서 사용할 수 있습니다.
마지막으로 통화 분석을 통해 Amazon EventBridge에 이벤트를 게시하여 실시간 알림을 생성할 수 있습니다. 이러한 이벤트를 AWS 계정 또는 지원되는 타사 애플리케이션에서 원하는 목적지로 라우팅할 수 있습니다.
통화 분석을 사용하면 실시간 오디오에서 인사이트를 생성하는 초기 프로젝트 시간을 몇 개월에서 며칠로 단축할 수 있습니다.
작동 방식
어떻게 작동하는지 보여드리겠습니다.
콘솔의 Amazon Chime SDK 섹션의 왼쪽 메뉴에서 통화 분석의 구성을 엽니다. 그런 다음 구성 생성을 선택합니다.
내 구성에 이름을 지정합니다. 선택적으로 태그를 연결할 수도 있습니다.
분석 서비스 구성에서 Amazon Chime SDK 음성 분석 또는 Amazon Transcribe 서비스 중 선택하여 통화를 분석할 수 있습니다. 이 데모에서는 음성 분석을 선택합니다.
분석을 보낼 위치를 구성합니다. 음성 분석 결과는 항상 Kinesis로 전송됩니다. 이전에 생성한 Kinesis 데이터 스트림을 지정합니다. Quicksight와 같은 비즈니스 인텔리전스 도구를 사용하여 분석 결과가 포함된 대시보드를 생성하려는 경우 분석을 수신할 S3 버킷도 지정합니다.
콘솔에서는 음성 분석 대시보드를 만드는 데 사용할 수 있는 CloudFormation 템플릿에 대한 링크도 제공합니다.
마지막으로 분석을 사용할 수 있다면, 새로운 음성 등록이 발생하거나 음성 확인 결과와 같은 이벤트 알림을 받을 Lambda 함수, SQS 대기열 또는 SNS 주제를 선택합니다. 후자의 경우 페이로드는 다음과 같습니다.
{
...common to all events...
"detail-type": "SpeakerSearchStatus",
"detail": {
"taskId": "uuid",
"detailStatus": "IdentificationSuccessful",
"speakerSearchDetails" : {
"results": [
{
"voiceProfileId": "guid",
"confidenceScore": "0.94",
},
{
"voiceProfileId": "guid",
"confidenceScore": "0.92",
},
{
"voiceProfileId": "guid",
"confidenceScore": "0.91",
},
... (up to 10)
]
},
"isCaller": false,
"voiceConnectorId": "guid",
"transactionId": "guid"
...details from Voice connector
}
}
이 데모에서는 기존 SQS 대기열을 선택합니다.
동의 승인에서 모든 상자를 선택하고 다음을 선택합니다.
다음 단계는 이전 단계에서 분석 서비스를 지정하지 않은 경우에만 사용할 수 있습니다. 음성 녹음을 구성할 수 있습니다. 분석을 선택하지 않은 경우 녹화를 사용할 수 있습니다.
액세스 권한 구성에서 이전에 생성한 AWS Identity and Access Management(IAM) 역할을 선택하여 Amazon Chime SDK가 내가 구성한 다른 AWS 서비스(Kinesis 데이터 스트림, S3 버킷, Lambda 함수, SQS 대기열 또는 SNS 주제)에 액세스할 수 있도록 합니다. 아직 IAM 역할이 없는 경우 콘솔에서 IAM 역할을 생성할 수 있습니다.
분석 서비스 구성에서 Amazon Transcribe 서비스를 선택한 경우 다음 단계를 사용할 수 있습니다. 이를 통해 EventBridge로 실시간 알림을 구성할 수 있습니다. 키워드 일치, 감정 감지 또는 문제 감지를 기반으로 메시지를 보내도록 규칙을 구성할 수 있습니다.
마지막 단계는 내 구성 검토 및 생성입니다. 구성 세부 정보를 검토한 다음 구성 생성을 선택합니다.
마지막으로 이 구성을 스트리밍 탭의 음성 커넥터 섹션 아래에 있는 음성 커넥터에 연결합니다.
이게 다입니다! 앞서 말했듯이 AWS 서비스나 AI 지식을 서로 연결하지 않아도 됩니다.
데이터가 Kinesis 또는 S3 버킷에 도착하면 원하는 비즈니스 보고 솔루션을 해당 위치로 보낼 수 있습니다. 제공되는 QuickSight 템플릿을 사용하면 다음 스크린샷과 같이 높은 수준의 개요와 심층 보기로 몇 분 안에 시작할 수 있습니다.
심층 대시보드는 에이전트와 고객의 정서 및 감정의 분포를 그래픽으로 보여줍니다. 또한 대화에 대한 상세한 분석과 녹취록을 얻을 수 있습니다.
요금 및 가용성
오디오 애플리케이션에 이러한 기능을 적용하려면 사전 인프라 투자가 필요 없으며 사용량에 따라 요금이 청구됩니다. 요금은 분석된 오디오 데이터의 분당 기준 요금입니다. 자세한 내용은 Amazon Chime SDK 요금을 참조하세요.
통화 분석은 미국 동부(오하이오, 버지니아 북부), 아시아 태평양(싱가포르) 및 유럽(프랑크푸르트) AWS 리전에서 사용할 수 있습니다.
이 게시물에서는 실시간 음성 통화를 더 쉽고 비용 효율적으로 녹음하고 인사이트를 생성할 수 있게 해주는 새로운 기능 세트인 Amazon Chime SDK 통화 분석에 대해 살펴보았습니다. 사용 편의성에 중점을 둔 이 새로운 기능은 클라우드 인프라, 전화 통신 및 ML에 대한 지식이 거의 없는 고객에게 특히 적합합니다.
지금 바로 시작하여 첫 번째 대시보드를 구성하세요!