Amazon Polly – сервис, преобразующий текст в естественную речь. Amazon Polly включает в себя несколько десятков естественно звучащих голосов и поддерживает множество языков. Таким образом, пользователи могут выбрать подходящий голос и распространять свои приложения с поддержкой речевых интерфейсов в разных странах. При работе с Amazon Polly достаточно отправить в API Amazon Polly текст, который необходимо преобразовать в речь, и сервис сразу же направит обратно в приложение соответствующий аудиопоток. Его можно воспроизвести или сохранить в стандартном аудиоформате, например MP3.
Попробовать Amazon Polly
Зарегистрируйте бесплатный аккаунтили войти в Консоль
Уровень бесплатного пользования Amazon Polly включает 5 миллионов символов в месяц в течение первых 12 месяцев с момента первого запроса на преобразование в речь.
Amazon Polly предоставляет API, который позволяет быстро интегрировать в приложение возможность синтеза речи. Достаточно отправить в API Amazon Polly текст, который необходимо преобразовать в речь, и сервис сразу же направит обратно в приложение соответствующий аудиопоток. Таким образом, можно немедленно начать потоковую передачу или сохранить аудиопоток в стандартном аудиоформате, например MP3.
| Частота дискретизации | Образец кода |
| «Hi. My name is Joanna.» | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi. My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
Amazon Polly включает в себя несколько десятков естественно звучащих голосов и поддерживает множество языков. Таким образом, пользователи могут выбрать подходящий голос и распространять свои приложения с поддержкой речевых интерфейсов в разных странах.
| Язык | Женский голос |
Мужской голос |
| Английский (Австралия) | Николь | Рассел |
| Португальский (Бразилия) | Витория | Рикарду |
| Французский (Канада) | Шанталь | |
| Датский | Ная | Мадс |
| Голландский | Лотте | Рубен |
| Французский | Селин | Мэтью |
| Немецкий | Вики | Ганс |
| Марлен | ||
| Исландский | Дора | Карл |
| Английский (Индия) | Равина | |
| Итальянский | Карла | Джорджо |
| Японский | Мизуки | |
| Норвежский | Лив | |
| Польский | Ева | Яцек |
| Мая | Ян | |
| Португальский (иберийский) | Инеш | Криштиано |
| Румынский | Кармен | |
| Русский | Татьяна | Максим |
| Испанский (кастильский) | Кончита | Энрике |
| Шведский | Астрид | |
| Турецкий | Филиз | |
| Английский (Великобритания) | Эми | Брайан |
| Эмма | ||
| Английский (США) | Джоанна | Джоуи |
| Салли | Джастин | |
| Кендра | ||
| Кимберли | ||
| Иви | ||
| Испанский (США) | Пенелопа | Мигель |
| Валлийский | Гвинет | |
| Английский (Валлийский) | Герайнт |
Amazon Polly упрощает запрос дополнительного потока метаданных, предоставляющего информацию о том, когда произносятся конкретные предложения, слова и звуки. Используя этот поток метаданных вместе с аудиопотоком синтезированного речевого сигнала, теперь можно создавать приложения с улучшенными визуальными возможностями, такими как анимация лиц, синхронизированная с речью, или выделение слов в стиле караоке.
Подробнее об использовании речевых меток см. в документации.
С помощью Amazon Polly можно передавать пользователям через свое приложение все виды информации в режиме, близком к реальному времени. Можно также настроить частоту дискретизации, чтобы оптимизировать полосу пропускания и качество звука для приложения. Amazon Polly поддерживает следующие форматы аудиопотока: MP3, Vorbis и PCM.
| Частота дискретизации | Размер MP3 | Размер OGG |
Размер PCM |
| 22,05 кГц Прослушать |
19,02 КБ | 19,14 КБ | н/д |
| 16,05 кГц Прослушать | 16,04 КБ |
16,35 КБ |
99,53 КБ |
| 8,00 кГц Прослушать | 13,26 КБ | 10,40 КБ | 49,76 КБ |
Amazon Polly поддерживает Speech Synthesis Markup Language (SSML), язык разметки для приложений синтеза речи стандарта W3C на основе XML, а также стандартные теги SSML, используемые для построения фраз, акцента и интонации. Такие гибкие возможности настройки позволяют создавать естественно звучащую речь, которая будет привлекать и удерживать внимание аудитории.
Подробную информацию см. в документации Amazon Polly по тегам SSML.
| Образец | SSML |
| This is how I speak normally. | (none) |
| I can speak in a higher pitched voice, or I can speak in a lower pitched voice. |
|
| I can speak really slowly, or I can speak really fast. |
|
| I can also speak very loudly, or I can speak very quietly. |
|
| I can whisper. |
|
Amazon Polly поддерживает все языки программирования, включенные в AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go и C++) и в AWS Mobile SDK (iOS/Android). Polly также поддерживает API HTTP, что позволяет реализовать свой собственный уровень доступа.
С Amazon Polly можно работать, используя API Polly (и различных SDK для конкретных языков), Консоль управления AWS и интерфейс командной строки AWS. Пользователь получает полный контроль над всеми возможностями Amazon Polly независимо от того, каким образом выполняется управление сервисом – с помощью консоли, API или интерфейса командной строки.
С помощью пользовательского лексикона (словарей) в Amazon Polly можно изменить произношение отдельных слов, таких как названия компаний, аббревиатур, иностранных слов и неологизмов (например, «ROTFL», «C’est la vie», когда этот текст произносит не французский голос). Чтобы настроить произношение, необходимо загрузить файл XML с лексическими записями. Например, можно настроить произношение «Nguyen», предоставив фонему с помощью следующего фрагмента кода XML: