Amazon Web Services 한국 블로그

Amazon Polly 신규 생성형 엔진과 세 가지 음성 정식 출시

오늘은 세 가지 목소리가 미국식 영어는 Ruth와 Matthew, 영국식 영어는 Amy로 제공되어 담긴 Amazon Polly의 생성형 엔진 정식 출시를 발표합니다. 새로운 생성형 엔진은 공개적으로 사용 가능한 독점 데이터, 다양한 음성, 언어 및 스타일로 훈련되었으며. 이는 상황에 따른 운율, 일시 중지, 철자, 방언 특성, 외국어 발음 등을 가장 정밀하게 렌더링합니다.

Amazon Polly는 텍스트를 TTS(텍스트 음성 변환) 기술이라고 하는 실제와 같은 음성으로 변환하는 기계 학습(ML) 서비스입니다. 이제 Amazon Polly에는 수십 개 언어로 사람과 비슷한 고품질의 자연스러운 음성이 포함되어 있어 가장 알맞은 음성을 선택하고 여러 지역이나 국가에 음성 지원 애플리케이션을 배포할 수 있습니다.

Amazon Polly를 사용하면 신경 음성, 롱폼 음성, 생성형 음성을 비롯한 다양한 음성 옵션을 선택할 수 있으며 이를 통해 음성 품질을 획기적으로 개선하고 사람과 비슷하고 표현력이 뛰어나며 감정에 능숙한 음성을 생성합니다. 음성 출력을 MP3나 OGG와 같은 표준 형식으로 저장하고, SSML(Speech Synthesis Markup Language) 태그로 음성 속도, 피치 또는 볼륨을 조정하고, 일관되게 빠른 응답 시간으로 실제와 같은 음성과 대화형 사용자 경험을 빠르게 제공합니다.

새로운 생성형 엔진이란 무엇인가요?
Amazon Polly는 이제 표준 음성, 신경 음성, 롱폼 음성 및 생성형 음성의 네 가지 음성 엔진을 지원합니다.

2016년에 도입된 표준 TTS 음성은 기존의 연결 합성(concatenative synthesis)을 사용합니다. 이 방법은 녹음된 음성의 음소를 하나로 묶어 매우 자연스러운 합성 음성을 생성합니다. 하지만 음성의 불가피한 변화와 파형을 분할하는 데 사용되는 기술은 음성 품질을 제한합니다.

2019년에 도입된 신경 TTS(NTTS) 음성은 음소 시퀀스를 스펙트로그램으로 변환하는 Sequence-to-sequence 신경망과 스펙트로그램을 연속 오디오 신호로 변환하는 뉴럴 보코더(neural vocoder)를 사용합니다. NTTS는 표준 음성보다 훨씬 더 높은 품질의 사람과 같은 음성을 생성합니다.

2023년에 도입된 롱폼(Long-form) 음성은 최첨단 딥 러닝 TTS 기술로 개발되었으며 뉴스 기사, 교육 자료 또는 마케팅 비디오와 같이 긴 콘텐츠에 대한 청취자의 관심을 끌도록 설계되었습니다.

2024년 2월, Amazon 연구팀은 새로운 연구용 TTS 모델인 BASE TTS(Big Adaptive Streamable TTS with Emergent abilities)를 도입했습니다. 이 기술을 통해 Polly 생성형 엔진은 사람처럼 합성된 음성을 만들 수 있습니다. 이러한 음성은 다양한 정보를 제공하는 고객 어시스턴트, 가상 트레이너 또는 숙련된 마케터로 활용할 수 있습니다.

새로운 생성형 음성:

이름 로케일 젠더 언어 샘플 프롬프트 NTTS 음성
생성형 음성
Ruth en_US 여성 영어(미국) Selma was lying on the ground halfway down the steps. 'Selma! Selma!' we shouted in panic.
Matthew en_US 남성 영어(미국) The guards were standing outside with some of our neighbours, listening to a transistor radio. 'Any good news?' I asked. 'No, we're listening to the names of people who were killed yesterday,' Bruno replied.
Amy en_GB 여성 영어(영국) What are you looking at?' he said as he stood over me. They got off the bus and started searching the baggage compartment. The tension on the bus was like a dark, menacing cloud that hovered above us.

이러한 음성들 중에 애플리케이션과 사용 사례에 맞게 옵션을 선택할 수 있습니다. 생성형 엔진에 대한 자세한 내용은 AWS 설명서의 생성형 음성에서 확인하세요.

생성형 음성 사용 시작하기
AWS Management Console, AWS Command Line Interface(AWS CLI) 또는 AWS SDK를 사용하여 새 음성에 액세스할 수 있습니다.

시작하려면 미국(버지니아 북부) 리전의 Amazon Polly 콘솔로 이동하여 왼쪽 창에서 텍스트 음성 변환 메뉴를 선택합니다. 미국식 영어인 Ruth 또는 Matthew나 영국식 영어인 Amy의 음성을 선택하면 생성형 엔진을 선택할 수 있습니다. 텍스트를 입력하고 생성된 음성 출력을 듣거나 다운로드합니다.

CLI를 사용하여 새 생성형 엔진을 사용하는 음성을 나열할 수 있습니다.

$ aws polly describe-voices --output json --region us-east-1 \
| jq -r '.Voices[] | select(.SupportedEngines | index("generative")) | .Name'

Matthew
Amy
Ruth

이제 synthesize-speech CLI 명령을 실행하여 샘플 텍스트를 생성형 엔진의 파라미터 및 지원 음성 ID를 사용하여 오디오 파일(hello.mp3)에 합성합니다.

$ aws polly synthesize-speech --output-format mp3 --region us-east-1 \
  --text "Hello. This is my first generative voices!" \
  --voice-id Matthew --engine generative hello.mp3

AWS SDK를 사용하는 코드 예제에 대한 자세한 내용은 AWS 설명서의 코드 및 애플리케이션 예제에서 확인하세요. JavaPython 코드 예제, Java 또는 Python을 사용하는 웹 애플리케이션 또는 iOS 및 Android 애플리케이션과 같은 애플리케이션 예제를 활용할 수 있습니다.

정식 출시
새로운 Amazon Polly 생성형 음성은 이제 미국 동부(버지니아 북부) 리전에서 사용할 수 있습니다. 음성으로 변환한 텍스트의 문자 수를 기준으로 사용한 만큼만 비용을 지불하면 됩니다. 자세한 내용은 Amazon Polly 요금 페이지를 참조하세요.

지금 바로 Amazon Polly 콘솔에서 생성형 음성을 사용해 보고 Amazon Polly용 AWS re:Post에 피드백을 보내거나 일반적인 AWS Support 문의를 통해 피드백을 보내주세요.

Channy