Amazon Polly – сервис, преобразующий текст в естественную речь. Amazon Polly включает в себя несколько десятков естественно звучащих голосов и поддерживает множество языков. Таким образом, пользователи могут выбрать подходящий голос и распространять свои приложения с поддержкой речевых интерфейсов в разных странах. При работе с Amazon Polly достаточно отправить в API Amazon Polly текст, который необходимо преобразовать в речь, и сервис сразу же направит обратно в приложение соответствующий аудиопоток. Его можно воспроизвести или сохранить в стандартном аудиоформате, например MP3.

Попробовать Amazon Polly

Зарегистрируйте бесплатный аккаунт
или войти в Консоль

Уровень бесплатного пользования Amazon Polly включает 5 миллионов символов в месяц в течение первых 12 месяцев с момента первого запроса на преобразование в речь.

Подробнее об уровне бесплатного пользования AWS »

Amazon Polly предоставляет API, который позволяет быстро интегрировать в приложение возможность синтеза речи. Достаточно отправить в API Amazon Polly текст, который необходимо преобразовать в речь, и сервис сразу же направит обратно в приложение соответствующий аудиопоток. Таким образом, можно немедленно начать потоковую передачу или сохранить аудиопоток в стандартном аудиоформате, например MP3.

Частота дискретизации Образец кода
«Hi. My name is Joanna.» from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Amazon Polly включает в себя несколько десятков естественно звучащих голосов и поддерживает множество языков. Таким образом, пользователи могут выбрать подходящий голос и распространять свои приложения с поддержкой речевых интерфейсов в разных странах.

Язык Женский голос
Мужской голос
Английский (Австралия) Николь Рассел
Португальский (Бразилия) Витория Рикарду
Французский (Канада) Шанталь  
Датский Ная Мадс
Голландский Лотте Рубен
Французский Селин Мэтью
Немецкий Вики Ганс
  Марлен  
Исландский Дора Карл
Английский (Индия) Равина  
  Aditi  
Итальянский Карла Джорджо
Японский Мизуки Такуми
Корейский Со Ён  
Норвежский Лив  
Польский Ева Яцек
  Мая Ян
Португальский (иберийский) Инеш Криштиано
Румынский Кармен  
Русский Татьяна Максим
Испанский (кастильский) Кончита Энрике
Шведский Астрид  
Турецкий Филиз  
Английский (Великобритания) Эми Брайан
  Эмма  
Английский (США) Джоанна Мэттью
  Салли Джастин
  Кендра Джоуи
  Кимберли  
  Иви  
Испанский (США) Пенелопа Мигель
Валлийский Гвинет  
Английский (Валлийский)   Герайнт

Amazon Polly упрощает запрос дополнительного потока метаданных, предоставляющего информацию о том, когда произносятся конкретные предложения, слова и звуки. Используя этот поток метаданных вместе с аудиопотоком синтезированного речевого сигнала, теперь можно создавать приложения с улучшенными визуальными возможностями, такими как анимация лиц, синхронизированная с речью, или выделение слов в стиле караоке.

Подробнее об использовании речевых меток см. в документации.

С помощью Amazon Polly можно передавать пользователям через свое приложение все виды информации в режиме, близком к реальному времени. Можно также настроить частоту дискретизации, чтобы оптимизировать полосу пропускания и качество звука для приложения. Amazon Polly поддерживает следующие форматы аудиопотока: MP3, Vorbis и PCM.

Частота дискретизации Размер MP3 Размер OGG
Размер PCM
22,05 кГц Прослушать
19,02 КБ 19,14 КБ н/д
16,05 кГц Прослушать 16,04 КБ
16,35 КБ
99,53 КБ
8,00 кГц Прослушать 13,26 КБ 10,40 КБ 49,76 КБ

Amazon Polly поддерживает Speech Synthesis Markup Language (SSML), язык разметки для приложений синтеза речи стандарта W3C на основе XML, а также стандартные теги SSML, используемые для построения фраз, акцента и интонации. Такие гибкие возможности настройки позволяют создавать естественно звучащую речь, которая будет привлекать и удерживать внимание аудитории.

Подробную информацию см. в документации Amazon Polly по тегам SSML.

Образец SSML
This is how I speak normally. (none)
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. I can speak in a higher pitched voice , or I can speak in a lower pitched voice
I can speak really slowly, or I can speak really fast. I can speak really slowly , or  I can speak really fast
I can also speak very loudly, or I can speak very quietly. I can also speak very loudly , or I can speak very quietly .
I can whisper. I have a secret to tell you, I will whisper it to you. ' I am not human. Can you believe it?

Amazon Polly поддерживает все языки программирования, включенные в AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go и C++) и в AWS Mobile SDK (iOS/Android). Polly также поддерживает API HTTP, что позволяет реализовать свой собственный уровень доступа.

С Amazon Polly можно работать, используя API Polly (и различных SDK для конкретных языков), Консоль управления AWS и интерфейс командной строки AWS. Пользователь получает полный контроль над всеми возможностями Amazon Polly независимо от того, каким образом выполняется управление сервисом – с помощью консоли, API или интерфейса командной строки.

С помощью пользовательского лексикона (словарей) в Amazon Polly можно изменить произношение отдельных слов, таких как названия компаний, аббревиатур, иностранных слов и неологизмов (например, «ROTFL», «C’est la vie», когда этот текст произносит не французский голос). Чтобы настроить произношение, необходимо загрузить файл XML с лексическими записями. Например, можно настроить произношение «Nguyen», предоставив фонему с помощью следующего фрагмента кода XML:


            Nguyen
            nguyen
            NGUYEN
            "nu.jEn'