사용이 간편한 API

Amazon Polly는 음성 합성을 애플리케이션에 신속하게 통합할 수 있도록 API를 제공합니다. 음성으로 변환하려는 텍스트를 Amazon Polly API로 전송하기만 하면 Amazon Polly가 오디오 스트림을 애플리케이션으로 즉시 반환하므로 애플리케이션이 직접 이를 스트리밍하거나 MP3와 같은 표준 오디오 파일 형식으로 저장할 수 있습니다.

샘플링 비율 샘플 코드
"Hi. My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="안녕하세요. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

다양한 목소리 및 언어 선택

Amazon Polly에는 수십 개의 생생한 음성과 다양한 언어에 대한 지원이 포함되어 있으므로 많은 국가/지역에서 적합한 목소리를 선택하여 음성 지원 애플리케이션을 배포할 수 있습니다. Amazon Polly는 표준 TTS 음성 외에도 보다 자연스럽고 인간적인 목소리를 위해 음성 품질을 향상시킨 신경망 텍스트 음성 변환(NTTS) 음성을 제공합니다.

언어 여성
남성
아랍어 Zeina
 
호주 영어 Nicole Russell
브라질식 포르투갈어

비토리아

카밀라(표준)

카밀라(신경망)

리카도
캐나다 프랑스어 Chantal  
덴마크어 Naja Mads
네덜란드어 Lotte Ruben
프랑스어

Léa

Céline

Mathieu

 

독일어 Vicki Hans
  Marlene  
힌디어 Aditi
 
아이슬란드어 Dóra Karl
인도 영어

Raveena

Aditi

 
이탈리아어 Carla Giorgio
  Bianca  
일본어 Mizuki Takumi
한국어 Seoyeon  
중국어 북경어 Zhiyu  
노르웨이어 Liv  
폴란드어 Ewa Jacek
  Maja 1월
이베리아식 포르투갈어 Inês Cristiano
루마니아어 Carmen  
러시아어 Tatyana Maxim
카스티야 스페인어 Conchita Enrique
  Lucia  
스페인어 - 멕시코 Mia  
스웨덴어 Astrid  
터키어 Filiz  
영국 영어

에이미(표준)

에이미(신경망)

브라이언(표준)

브라이언(신경망)

 

엠마(표준)

엠마(신경망)

 
미국 영어

조안나(표준)

조안나(신경망)

매튜(표준)

매튜(신경망)

 

샐리(표준)

샐리(신경망)

저스틴(표준)

저스틴(신경망)

 

켄드라(표준)

켄드라(신경망)

조이(표준)

조이(신경망)

 

킴벌리(표준)

킴벌리(신경망)

 
 

아이비(표준)

아이비(신경망)

 
미국 스페인어

페넬로페

루페(표준)

루페(신경망)

미구엘
웨일스어 Gwyneth  
웨일스 영어   Geraint

향상된 시각적 경험을 위해 음성 동기화

Amazon Polly에서는 특정 문장, 단어 또는 소리가 발음되는 시점에 대한 정보를 제공하는 메타데이터의 추가 스트림을 손쉽게 요청할 수 있습니다. 합성된 음성 오디오 스트림과 함께 이러한 메타데이터 스트림을 사용하면 이제 음성이 동기화된 얼굴 애니메이션 또는 노래방 형태의 자막 강조 표시와 같은 향상된 시각적 경험이 적용된 애플리케이션을 구축할 수 있습니다.

인용 부호 기능을 사용하는 방법을 자세히 알아보려면 설명서를 참조하십시오. 

스트리밍 오디오 최적화

Amazon Polly에서는 애플리케이션을 통해 사용자에게로 모든 종류의 정보를 거의 실시간으로 스트리밍할 수 있습니다. 또한, 다양한 샘플링 비율을 선택하여 애플리케이션의 대역폭과 오디오 품질을 최적화할 수 있습니다. Amazon Polly는 MP3, Vorbis 및 원시 PCM 오디오 스트림 형식을 지원합니다.

샘플링 비율 MP3 크기   OGG 크기
PCM 크기
24.00kHz 듣기 19.31kB 18.11kB 해당 사항 없음
22.05kHz 듣기
19.33kB 17.62kB 해당 사항 없음
16.05kHz 듣기 16.22kB 15.48kB

100.68kB

8.00kHz 듣기 13.26kB 9.72kB 50.34kB

스피킹 스타일, 음성 속도, 피치 및 음량 조정

Amazon Polly에서는 음성 합성 애플리케이션을 위한 Speech Synthesis Markup Language(SSML), W3C 표준, XML 기반 마크업 언어를 지원하고 표현, 강조 및 억양을 위한 일반 SSML 태그를 지원합니다. 사용자 지정 Amazon SSML 태그는 특정 음성을 뉴스 진행자 스피킹 스타일로 말할 수 있는 기능과 같은 고유한 옵션을 제공합니다. 이러한 유연성은 청중의 관심을 끌 수 있는 생생한 음성을 생성하는 데 도움이 됩니다.

자세한 내용은 Amazon Polly의 SSML 태그 단원을 참조하십시오.

샘플 SSML
This is how I speak normally. (없음)
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing. <speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak>
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
I can speak really slowly, or I can speak really fast. <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
I can also speak very loudly, or I can speak very quietly. <speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak>
I can whisper. <speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak>

뉴스 진행자 스피킹 스타일

Amazon Polly는 TV 또는 라디오 뉴스 진행자가 말한 것처럼 음성을 합성하는 데 사용할 수 있습니다. 이것은 뉴스 기사를 읽거나 빠른 브리핑 업데이트를 제공하는 좋은 방법이 될 수 있습니다. 뉴스 진행자 스타일은 현재 신경망 텍스트 음성 변환을 사용하여 미국식 영어(en-US) 매튜와 조안나 목소리에 사용할 수 있습니다. 샘플 듣기 »

스피치 최대 기간 조정

Amazon Polly를 사용하면 시간 기반의 prosody라는 기능으로 정의된 최대 할당 시간을 기준으로 스피치 속도를 자동으로 조정할 수 있습니다. 이는 특히 현지화를 포함한 많은 경우에 유용합니다.

예를 들어 교육 비디오에 미국 영어 스피치가 포함되어 있고 이 비디오를 독일어로 현지화하려고 한다고 가정해 보겠습니다. Amazon Translate를 사용하여 텍스트를 번역하고 Polly를 사용하여 음성으로 변환합니다. 현지화된 독일어 음성은 해당 비디오 프레임에 스트리밍되어야 하므로 독일어 스피치는 미국 영어 스피치보다 길 수 없습니다. 이 기능을 사용하여 더빙 프로세스를 더 쉽게 진행할 수 있습니다.

플랫폼 및 프로그래밍 언어 지원

Amazon Polly는 AWS SDK(Java, Node.js, .NET, PHP, Python, Ruby, Go 및 C++)와 AWS Mobile SDK(iOS/Android)를 비롯하여 모든 프로그래밍 언어를 지원합니다. 또한, Polly는 HTTP API를 지원하므로 고객은 자체 액세스 계층을 구현할 수 있습니다.

API, 콘솔 또는 명령줄을 통한 음성 합성

Amazon Polly는 Polly API(그리고 다양한 언어별 SDK), AWS Management Console 및 AWS 명령줄 인터페이스(CLI)를 통해 액세스할 수 있습니다. 콘솔, API 또는 CLI 중 어느 것을 통해 서비스를 사용하든 Amazon Polly의 모든 기능을 완벽히 제어할 수 있습니다.

사용자 지정 어휘

Amazon Polly의 사용자 지정 어휘 또는 용어의 경우 회사 이름, 두문자어, 외래어, 신조어 등 특정 단어의 발음을 수정할 수 있습니다(예: 프랑스인이 아닌 사람이 말할 때 “C’est la vie”, “ROTFL”). 이러한 발음을 사용자 지정하려면 어휘 항목이 포함된 XML 파일을 업로드하면 됩니다. 예를 들어 이 XML을 통해 음소를 제공하여 Nguyen의 발음을 사용자 지정할 수 있습니다.

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Amazon Polly 요금에 대해 자세히 알아보기

요금 페이지로 이동하기
시작할 준비가 되셨습니까?
가입하기
추가 질문이 있으십니까?
AWS에 문의