Amazon Web Services 한국 블로그

Amazon Transcribe, 한국어 음성 인식 기능 추가

Amazon Transcribe는 개발자가 음성을 텍스트로 변환하는 기능을 애플리케이션에 쉽게 추가할 수 있게 지원하는 자동 음성 인식(ASR) 서비스입니다. 기존에 지원되던 미국 영어, 영국 영어, 호주 영어, 미국 스페인어, 캐나다 프랑스어, 프랑스어, 이탈리아어 및 브라질 포르투갈어에 더해서 오늘 부터 새롭게 한국어와 독일어 지원이 시작됩니다.

2017년 11월 음성 합성 서비스인 Amazon Polly의 한국어 음성 지원, 그리고 지난해 11월 기계 번역 서비스인 Amazon Translate의 한국어 지원에 이어 한국 고객들의 지속적인 요청에 따른 결과입니다.

새로운 언어 세트는 Amazon Transcribe가 제공하는 시장을 확대하여 컨택 센터, 미디어 및 엔터테인먼트, 교육 등의 유스 케이스를 광범위하게 전 세계 고객에게 제공합니다. 예를 들어이 서비스를 사용하여 한국어로 영화 자막을 만들거나 고객 서비스 분석을 위해 독일어로 고객 센터 지원을 할 수 있습니다.

Amazon Transcribe API를 사용하면 Amazon S3에 저장된 오디오 파일을 분석하고 서비스에서 음성을 기록한 텍스트 파일을 반환하도록 할 수 있습니다. 또한 라이브 오디오 스트림을 Amazon Transcribe로 보내고 트랜스크립트 스트림을 실시간으로 받을 수 있습니다.

좀 더 자세한 점은 Amazon Transcribe를 활용하는 예제를 살펴보세요.

아래는 AWS 관리 콘솔에서 한국어 샘플 음성에 대해 인식 결과를 보여 주는 화면입니다. 음성 재생 시간 위치에 따라 97% 이상의 정확도를 보여주고 있습니다.

다음은 CLI를 통해 작업을 시작하여 작업이 종료될 때까지 Python 스크립트입니다.

Python
from __future__ import print_function
import time
import boto3
transcribe = boto3.client('transcribe')
job_name = "KoreanSampleVoice"
job_uri = "s3://aws-transcribe/test.mp3"
transcribe.start_transcription_job(
    TranscriptionJobName=job_name,
    Media={'MediaFileUri': job_uri},
    MediaFormat='mp3',
    LanguageCode='ko-KR',
    MediaSampleRateHertz=44100
)
while True:
    status = transcribe.get_transcription_job(TranscriptionJobName=job_name)
    if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']:
        break
	print("Not ready yet...")
    time.sleep(5)
print(status)

완료된 작업의 결과는 트랜스크립션을 JSON 형식으로 저장하는 Amazon Simple Storage Service (S3) 미리 서명된 url로 연결됩니다.

Json
{
  "jobName": "RandallTest1",
  "results": {
  	"transcripts": [{"transcript": "바다 위로", "confidence": 1}],
    "items": [
      {
      	"start_time": "0.880", "end_time": "1.300",
        "alternatives": [{"confidence": 0.91, "word": "Hello"}]
      },
      {
        "start_time": "1.400", "end_time": "1.620",
        "alternatives": [{"confidence": 0.84, "word": "World"}]
      }
  	]
  },
  "status": "COMPLETED"
}

Amazon Transcribe는 고객 서비스 통화를 기록, 오디오 및 비디오 콘텐츠에 자막 생성을 비롯하여 수많은 일반 애플리케이션에 사용할 수 있습니다. 이 서비스에서는 WAV 및 MP3와 같은 일반적인 형식으로 저장된 오디오 파일을 트랜스크립션하고 단어마다 타임스탬프를 추가하므로, 텍스트를 검색하여 원래 소스에서 오디오의 정확한 위치를 손쉽게 찾을 수 있습니다. Amazon Transcribe는 진화하는 언어에 뒤처지지 않기 위해 계속해서 학습하고 개선하고 있습니다.

새로 추가된 독일어 및 한국어는 추가 비용없이 Amazon Transcribe가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. Amazon Transcribe 관리 콘솔을 통해 새로운 언어 세트를 시험해 보거나 명령줄 모드(CLI) 및 AWS SDK를 사용하십시오. 자세한 정보는 문서 페이지를 참조하십시오.

– Channy (윤석찬);