Amazon Transcribe

자동 음성 인식

Amazon Transcribe는 개발자가 음성을 텍스트로 변환하는 기능을 애플리케이션에 쉽게 추가할 수 있도록 해주는 ASR(자동 음성 인식) 서비스입니다. Amazon Transcribe API를 사용하면 Amazon S3에 저장된 오디오 파일을 분석하고 서비스에서 음성을 기록한 텍스트 파일을 반환하도록 할 수 있습니다.

Amazon Transcribe는 고객 서비스 통화를 기록, 오디오 및 비디오 콘텐츠에 자막 생성을 비롯하여 수많은 일반 애플리케이션에 사용할 수 있습니다. 이 서비스에서는 WAV 및 MP3와 같은 일반적인 형식으로 저장된 오디오 파일을 기록하고 단어마다 타임스탬프를 추가하므로, 텍스트를 검색하여 원래 소스에서 오디오의 정확한 위치를 손쉽게 찾을 수 있습니다. Amazon Transcribe는 진화하는 언어에 뒤처지지 않기 위해 계속해서 학습하고 개선하고 있습니다.

AWS re:Invent 2017 Introducing Amazon Transcribe

주요 기능

읽기 쉬운 기록

대부분 음성 인식 시스템은 마침표 없이 텍스트 문자열을 출력합니다. Amazon Transcribe는 딥러닝을 사용하여 마침표와 서식을 자동으로 추가하므로, 출력을 읽기가 좀 더 쉽고 추가 편집 없이 사용할 수 있습니다.

전화 오디오 지원

전화 통화를 녹음한 오디오는 대개 품질이 떨어집니다. Amazon Transcribe는 고개 서비스 통화 기록과 같은 사용 사례를 지원하기 위해 특히 전화 품질의 오디오를 작업할 때 높은 정확도를 제공하도록 설계되었습니다.  

여러 가지 언어

Amazon Transcribe는 미국 영어와 스페인어 음성을 자동으로 기록할 수 있습니다. 추가 언어에 대한 지원도 곧 제공될 예정입니다.    

 

사용이 간편한 API

Amazon Transcribe API를 사용하여 손쉽게 음성에서 텍스트로 변환할 수 있습니다. 복잡한 프로그래밍은 필요하지 않습니다. 코드 몇 줄로 API를 호출하기만 하면, Transcribe가 Amazon S3에 저장된 오디오 파일에서 텍스트를 반환합니다.

사용자 지정 어휘 지원(곧 제공 예정)

Amazon Transcribe는 음성 인식 어휘를 추가하고 사용자 지정할 수 있는 기능을 제공합니다. 말에 전문 용어 또는 고유한 제품 이름이 포함되어 있더라도, 기본 어휘에 발음과 함께 새로운 단어를 추가하여 사용 사례에 특화된 매우 정확한 기록을 생성할 수 있습니다. 이 기능을 사용하면 중간에 수정할 필요가 없으므로 시간을 절약하고 추가 편집을 생략할 수 있습니다.

타임스탬프 생성

Amazon Transcribe는 각 단어에 대한 타임스탬프를 반환하므로, 텍스트 검색을 통해 원래 녹음 자료에서 오디오의 정확한 위치를 손쉽게 찾을 수 있습니다.

 

여러 명의 말하는 사람을 인식(곧 제공 예정)

Amazon Transcribe는 말하는 사람이 바뀌는 것을 인식하고 기록하는 텍스트에 적절히 반영할 수 있습니다. 따라서 전화 통화, 인터뷰 및 텔레비전 쇼와 같이 말하는 사람이 여러 명인 오디오를 기록하는 데 필요한 작업량을 상당히 줄일 수 있습니다.

사용 사례

Amazon Transcribe는 고객 서비스, 자막 처리, 검색 및 규정 준수를 비롯하여 다양한 사용 사례에 맞춰 기록을 제공할 수 있습니다.

고객 서비스 개선

오디오 입력을 텍스트로 변환하는 Amazon Transcribe를 사용하면 음성 입력을 검색하고 분석할 수 있는 텍스트 분석 애플리케이션을 구축할 수 있습니다. 고객 문의 센터에서는 Amazon Transcribe를 사용하여 음성 기반 상호 작용을 기록하고, 통찰력을 얻기 위해 Amazon Comprehend와 같은 다른 AWS 서비스를 사용하여 데이터를 마이닝하여 의미와 의도를 추출할 수 있습니다.

자막 넣기/자막 처리 워크플로

Amazon Transcribe는 비디오 콘텐츠와 함께 표시될 수 있고 타임스탬프가 찍힌 자막을 자동으로 생성함으로써 콘텐츠 생성 및 미디어 배급자가 접근성과 액세스를 개선하는 데 도움을 줄 수 있습니다.

오디오 아카이브 분류

이 서비스를 사용하면 규정 준수 모니터링 및 위험 관리를 위해 오디오와 비디오 자산을 완벽하게 검색 가능한 아카이브에 기록할 수 있습니다. 고객은 Amazon Transcribe를 사용하여 오디오를 텍스트로 변환하고, Amazon ElasticSearch를 사용하여 오디오/비디오 라이브러리를 인덱싱하고 텍스트 기반 검색을 수행할 수 있습니다.

고객 레퍼런스

RingDNA는 엔터프라이즈 판매 가속화 엔진 및 음성 커뮤니케이션 플랫폼입니다. 내부 영업 팀에서 RingDNA를 사용하여 생산성을 대폭 향상하고, 판매 상담에 좀 더 지능적으로 참여하고, 예측 가능한 영업 통찰력을 확보하고, 영업 담당자가 그 어느 때보다 빠르게 성공하도록 지도할 수 있습니다. 

"RingDNA는 영업 팀을 위한 엔드 투 엔드 커뮤니케이션 플랫폼입니다. 수백 개의 기업에서 RingDNA를 사용하여 생산성을 대폭 향상하고, 판매 상담에 좀 더 지능적으로 참여하고, 예측 가능한 영업 통찰력을 확보하고, 승률을 높이고, 영업 담당자가 그 어느 때보다 빠르게 성공하도록 지도합니다. 모든 전화 통화의 기록을 제공하기 위해서는 RingDNA 대화 AI의 중요 구성 요소에 최고의 음성 텍스트 변환 기능이 필요합니다. RingDNA는 Amazon Transcribe에 거는 기대가 큽니다. 대규모로 고품질 음성 인식 기능을 제공하여 모든 통화를 텍스트로 기록하는 데 도움이 되기 때문입니다."

Howard Brown – CEO 겸 창립자,  RingDNA

호주 시드니에 본사를 둔 Isentia는 아시아 태평양 지역에서 선도적인 미디어 인텔리전스 공급자입니다. 이 회사는 아시아 태평양 지역에서 18개의 사무실을 운영하고 세계 100대 브랜드 중 84개를 비롯하여 전 세계에서 5,000이 넘는 고객사를 지원합니다. Isentia의 제품은 고객이 정보에 입각하여 적시에 비즈니스 및 커뮤니케이션 의사 결정을 내리는 데 도움이 됩니다.

"Isentia는 고객이 자산 브랜드의 언론 보도를 분석하고 모니터링하도록 지원합니다. 라디오와 TV 콘텐츠에서 매일 13,000개 이상의 요약본을 생성합니다. Amazon Transcribe를 사용해 우리가 모니터링하는 모든 오디오/비디오 콘텐츠를 기록하고 Amazon Clair를 사용해 텍스트 데이터를 분석합니다. 타임스탬프와 마침표 같은 기능은 우리가 정말 간편하게 데이터를 검색하고, 드릴다운한 후, 주요 통찰력을 제공하여 고객이 검토할 수 있게 해줍니다."

Andrea Walsh – CIO, Isentia

Amazon Transcribe 요금에 대해 자세히 알아보기

요금 페이지로 이동하기
시작할 준비가 되셨습니까?
평가판 가입하기
질문이 있으십니까?
AWS에 문의