Простой в использовании API
Amazon Polly предоставляет API, который позволяет быстро интегрировать в приложение возможность синтеза речи. Достаточно отправить в API Amazon Polly текст, который необходимо преобразовать в речь, и сервис сразу же направит обратно в приложение соответствующий аудиопоток. Таким образом, можно немедленно начать потоковую передачу или сохранить аудиопоток в стандартном аудиоформате, например MP3.
Частота дискретизации | Образец кода |
«Hi. My name is Joanna.» | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi. My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
Богатый выбор голосов и языков
Amazon Polly включает в себя несколько десятков естественно звучащих голосов и поддерживает множество языков. Таким образом, пользователи могут выбирать подходящие голоса и распространять свои приложения с поддержкой речевых интерфейсов в разных странах. Помимо голосов, созданных по стандартным технологиям TTS, в Amazon Polly включены голоса, созданные по технологии нейронного преобразования текста в речь (NTTS). Эта технология улучшает качество речи, и та начинает звучать более естественно и похоже на человеческую.
Язык | Женский голос |
Мужской голос |
Арабский | Зейна |
|
Английский (Австралия) | Рассел | |
Португальский (Бразилия) | Рикардо | |
Английский (Великобритания) | ||
Французский (Канада) | Шанталь | |
Датский | Ная | Мэдс |
Голландский | Лотте | Рубен |
Французский |
|
|
Немецкий | Вики | Ганс |
Марлен | ||
Хинди | Aditi |
|
Исландский | Дора | Карл |
Английский (Индия) | ||
Итальянский | Карла | Джорджо |
Бьянка | ||
Японский | Мизуки | Такуми |
Корейский | Со Ён | |
Мандарин (китайский) | Чжиюй | |
Норвежский | Лив | |
Польский | Ева | Яцек |
Майя | Ян | |
Португальский (иберийский) | Инеш | Криштиано |
Румынский | Кармен | |
Русский | Татьяна | Максим |
Испанский (кастильский) | Кончита | Энрике |
Люсия | ||
Испанский (мексиканский) | Миа | |
Шведский | Астрид | |
Турецкий | Филиз | |
Английский (США) | ||
Испанский (США) | Мигель | |
Уэльский | Гвинет | |
Английский (Валлийский) | Герайнт |
Синхронизация речи для улучшенного визуального восприятия
Amazon Polly упрощает запрос дополнительного потока метаданных, предоставляющего информацию о том, когда произносятся конкретные предложения, слова и звуки. Используя этот поток метаданных вместе с аудиопотоком синтезированного речевого сигнала, теперь можно создавать приложения с улучшенными визуальными возможностями, такими как анимация лиц, синхронизированная с речью, или выделение слов в стиле караоке.
Подробнее об использовании речевых меток см. в документации.
Оптимизация потоковой передачи звука
С помощью Amazon Polly можно передавать пользователям через свое приложение все виды информации в режиме, близком к реальному времени. Для оптимизации полосы частот и качества звука для приложения можно выбирать различные частоты дискретизации. Amazon Polly поддерживает звуковые потоки в форматах MP3, Vorbis и несжатом формате PCM.
Частота дискретизации | Размер MP3 | Размер OGG |
Размер PCM |
24,00 кГц Прослушать | 19,31 КБ | 18,11 КБ | н/п |
22,05 кГц Прослушать |
19,33 КБ | 17,62 КБ | н/п |
16,05 кГц Прослушать | 16,22 КБ | 15,48 КБ | 100,68 КБ |
8,00 кГц Прослушать | 13,26 КБ | 9,72 КБ | 50,34 КБ |
Настройка стиля речи, скорости речи, высоты тона и громкости
Amazon Polly поддерживает Speech Synthesis Markup Language (SSML), язык разметки для приложений синтеза речи стандарта W3C на основе XML, а также стандартные теги SSML, используемые для построения фраз, создания акцента и интонации. Настраиваемые теги Amazon SSML открывают уникальные возможности, например заставляют некоторые голоса звучать в стиле Newscaster. Такие гибкие возможности настройки позволяют создавать естественно звучащую речь, которая привлекает и удерживает внимание аудитории.
Подробную информацию см. в документации Amazon Polly по тегам SSML.
Образец | SSML |
This is how I speak normally. | (none) |
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing. | <speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak> |
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. | <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak> |
I can speak really slowly, or I can speak really fast. | <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or I can speak <prosody rate="x-fast">really fast</prosody></speak> |
I can also speak very loudly, or I can speak very quietly. | <speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak> |
I can whisper. | <speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak> |
I can also speak in a Conversational style, which simulates the tone of a friendly conversation. | <speak><amazon:domain name="conversational">I can also speak in a Conversational style, which simulates the tone of a friendly conversation.</amazon:domain></speak> |
Стиль Newscaster
Amazon Polly позволяет синтезировать речь, похожую на голос теле‑ или радиодиктора. Это отличный способ читать новости или сообщать оперативные информационные сводки. Стиль Newscaster в настоящее время доступен для говорящих на американском английском (en‑US) языке голосов Мэттью и Джоанны, говорящего на британском английском (en-GB) языке голоса Эми и говорящего на американском испанском (es-US) языке голоса Лупе, созданных по технологии нейронного преобразования текста в речь (NTTS). Прослушайте аудиопример на американском английском, британском английском или американском испанском языке.
Стиль Conversational
С помощью Amazon Polly можно синтезировать речь, чтобы имитировать интонацию дружеского разговора. Стиль Conversational звучит естественно и дружелюбно. Он может быть полезен во многих примерах использования, в том числе в условиях телефонии. Стиль Conversational в настоящее время доступен для голосов Мэттью и Джоанна, говорящих на американском варианте английского языка. Прослушайте голоса в стиле Conversational здесь.
Настройка максимальной продолжительности речи
Amazon Polly позволяет автоматически настраивать скорость речи на основе максимального отведенного времени, которое можно определить с помощью новой возможности интонационных конструкций, зависящих от времени. Это может пригодиться для многих примеров использования, особенно связанных с локализацией.
Предположим, что в учебном видео присутствует речь на американском английском, и вы хотите перевести это видео на немецкий язык. Допустим также, что вы переводите текст с помощью Amazon Translate и озвучиваете его с помощью Polly. Очень важно, чтобы переведенная на немецкий язык речь попадала в соответствующие видеокадры, поэтому речь на немецком языке не может быть продолжительнее, чем речь на американском английском. Новую возможность можно использовать для упрощения процесса дублирования.
Поддержка платформ и языков программирования
Amazon Polly поддерживает все языки программирования, включенные в SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go и C++) и AWS Mobile SDK (iOS/Android). Polly также поддерживает API HTTP, поэтому пользователь может обеспечить свой собственный уровень доступа.
Синтез речи с помощью API, консоли или командной строки
С Amazon Polly можно работать, используя API Polly (и различных SDK для конкретных языков), Консоль управления AWS и интерфейс командной строки AWS. Пользователь получает полный контроль над всеми возможностями Amazon Polly независимо от того, каким образом выполняется управление сервисом – с помощью консоли, API или интерфейса командной строки.
Пользовательский лексикон
С помощью пользовательского лексикона (словарей) в Amazon Polly можно изменить произношение отдельных слов, таких как названия компаний, аббревиатур, иностранных слов и неологизмов (например, «ROTFL», «C’est la vie», когда этот текст произносит не французский голос). Чтобы настроить произношение, необходимо загрузить файл XML с лексическими записями. Например, можно настроить произношение «Nguyen», предоставив фонему с помощью следующего фрагмента кода XML:
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>
Фирменный голос
«Фирменный голос» – это специальная программа, в рамках которой вы сотрудничаете с командой Amazon Polly, чтобы создать для своей организации эксклюзивный голос для нейронного преобразования текста в речь (NTTS). Фирменный голос позволяет придать свои продуктам и приложениям уникальное звучание для широкого диапазона вариантов использования, включая интеграцию Amazon Connect и Alexa Skills. Мы сотрудничаем с вами в течение всего процесса, чтобы определить нужный характер, найти актера или актрису и записать их голос, а затем создать и обучить модель воспроизведения голоса. После этого голос становится доступен вашим аккаунтам AWS.
Прослушать фирменный голос Национального банка Австралии »
Если вас интересует создание фирменного голоса с помощью Polly, обратитесь к менеджеру аккаунтов AWS или свяжитесь с нами для получения дополнительной информации.
Подробнее о ценах на Amazon Polly