Простой в использовании API

Amazon Polly предоставляет API, который позволяет быстро интегрировать в приложение возможность синтеза речи. Достаточно отправить в API Amazon Polly текст, который необходимо преобразовать в речь, и сервис сразу же направит обратно в приложение соответствующий аудиопоток. Таким образом, можно немедленно начать потоковую передачу или сохранить аудиопоток в стандартном аудиоформате, например MP3.

Частота дискретизации Образец кода
«Hi. My name is Joanna.» from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Богатый выбор голосов и языков

Amazon Polly включает в себя несколько десятков естественно звучащих голосов и поддерживает множество языков. Таким образом, пользователи могут выбирать подходящие голоса и распространять свои приложения с поддержкой речевых интерфейсов в разных странах. Помимо голосов, созданных по стандартным технологиям TTS, в Amazon Polly включены голоса, созданные по технологии нейронного преобразования текста в речь (NTTS). Эта технология улучшает качество речи, и та начинает звучать более естественно и похоже на человеческую.

Язык Женский голос
Мужской голос
Арабский Зейна
 
Английский (Австралия) Николь Рассел
Португальский (Бразилия)

Витория

Камилла (стандартный)

Камилла (на основе нейронной сети)

Рикардо
Французский (Канада) Шанталь  
Датский Ная Мэдс
Голландский Лотте Рубен
Французский

Лея

Селин

Мэтью

 

Немецкий Вики Ганс
  Марлен  
Хинди Aditi
 
Исландский Дора Карл
Английский (Индия)

Равина

Aditi

 
Итальянский Карла Джорджо
  Бьянка  
Японский Мизуки Такуми
Корейский Со Ён  
Мандарин (китайский) Чжиюй  
Норвежский Лив  
Польский Ева Яцек
  Майя Ян
Португальский (иберийский) Инеш Криштиано
Румынский Кармен  
Русский Татьяна Максим
Испанский (кастильский) Кончита Энрике
  Люсия  
Испанский (мексиканский) Миа  
Шведский Астрид  
Турецкий Филиз  
Английский (Великобритания)

Эми (стандартный)

Эми (на основе нейронной сети)

Брайан (стандартный)

Брайан (на основе нейронной сети)

 

Эмма (стандартный)

Эмма (на основе нейронной сети)

 
Английский (США)

Джоанна (стандартный)

Джоанна (на основе нейронной сети)

Мэттью (стандартный)

Мэттью (на основе нейронной сети)

 

Салли (стандартный)

Салли (на основе нейронной сети)

Джастин (стандартный)

Джастин (на основе нейронной сети)

 

Кендра (стандартный)

Кендра (на основе нейронной сети)

Джоуи (стандартный)

Джоуи (на основе нейронной сети)

 

Кимберли (стандартный)

Кимберли (на основе нейронной сети)

 
 

Айви (стандартный)

Айви (на основе нейронной сети)

 
Испанский (США)

Пенелопа

Лупе (стандартный)

Лупе (на основе нейронной сети)

Мигель
Уэльский Гвинет  
Английский (Валлийский)   Герайнт

Синхронизация речи для улучшенного визуального восприятия

Amazon Polly упрощает запрос дополнительного потока метаданных, предоставляющего информацию о том, когда произносятся конкретные предложения, слова и звуки. Используя этот поток метаданных вместе с аудиопотоком синтезированного речевого сигнала, теперь можно создавать приложения с улучшенными визуальными возможностями, такими как анимация лиц, синхронизированная с речью, или выделение слов в стиле караоке.

Подробнее об использовании речевых меток см. в документации

Оптимизация потоковой передачи звука

С помощью Amazon Polly можно передавать пользователям через свое приложение все виды информации в режиме, близком к реальному времени. Для оптимизации полосы частот и качества звука для приложения можно выбирать различные частоты дискретизации. Amazon Polly поддерживает звуковые потоки в форматах MP3, Vorbis и несжатом формате PCM.

Частота дискретизации Размер MP3 Размер OGG
Размер PCM
24,00 кГц Прослушать 19,31 КБ 18,11 КБ н/п
22,05 кГц Прослушать
19,33 КБ 17,62 КБ н/п
16,05 кГц Прослушать 16,22 КБ 15,48 КБ

100,68 КБ

8,00 кГц Прослушать 13,26 КБ 9,72 КБ 50,34 КБ

Настройка стиля речи, скорости речи, высоты тона и громкости

Amazon Polly поддерживает Speech Synthesis Markup Language (SSML), язык разметки для приложений синтеза речи стандарта W3C на основе XML, а также стандартные теги SSML, используемые для построения фраз, создания акцента и интонации. Настраиваемые теги Amazon SSML открывают уникальные возможности, например заставляют некоторые голоса звучать в стиле Newscaster. Такие гибкие возможности настройки позволяют создавать естественно звучащую речь, которая привлекает и удерживает внимание аудитории.

Подробную информацию см. в документации Amazon Polly по тегам SSML.

Образец SSML
This is how I speak normally. (none)
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing. <speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak>
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak>
I can speak really slowly, or I can speak really fast. <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or  I can speak <prosody rate="x-fast">really fast</prosody></speak>
I can also speak very loudly, or I can speak very quietly. <speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak>
I can whisper. <speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x‑slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak>
I can also speak in a Conversational style, which simulates the tone of a friendly conversation. <speak><amazon:domain name="conversational">I can also speak in a Conversational style, which simulates the tone of a friendly conversation.</amazon:domain></speak>

Стиль Newscaster

Amazon Polly позволяет синтезировать речь, похожую на голос теле‑ или радиодиктора. Это отличный способ читать новости или сообщать оперативные информационные сводки. Стиль Newscaster в настоящее время доступен для говорящих на американском английском (en‑US) языке голосов Мэттью и Джоанна, созданных по технологии нейронного преобразования текста в речь (NTTS). Прослушать образец »

Стиль Conversational

С помощью Amazon Polly можно синтезировать речь, чтобы имитировать интонацию дружеского разговора. Стиль Conversational звучит естественно и дружелюбно. Он может быть полезен во многих примерах использования, в том числе в условиях телефонии. Стиль Conversational в настоящее время доступен для голосов Мэттью и Джоанна, говорящих на американском варианте английского языка. Прослушайте голоса в стиле Conversational здесь.

Настройка максимальной продолжительности речи

Amazon Polly позволяет автоматически настраивать скорость речи на основе максимального отведенного времени, которое можно определить с помощью новой возможности интонационных конструкций, зависящих от времени. Это может пригодиться для многих примеров использования, особенно связанных с локализацией.

Предположим, что в учебном видео присутствует речь на американском английском, и вы хотите перевести это видео на немецкий язык. Допустим также, что вы переводите текст с помощью Amazon Translate и озвучиваете его с помощью Polly. Очень важно, чтобы переведенная на немецкий язык речь попадала в соответствующие видеокадры, поэтому речь на немецком языке не может быть продолжительнее, чем речь на американском английском. Новую возможность можно использовать для упрощения процесса дублирования.

Поддержка платформ и языков программирования

Amazon Polly поддерживает все языки программирования, включенные в SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go и C++) и AWS Mobile SDK (iOS/Android). Polly также поддерживает API HTTP, поэтому пользователь может обеспечить свой собственный уровень доступа.

Синтез речи с помощью API, консоли или командной строки

С Amazon Polly можно работать, используя API Polly (и различных SDK для конкретных языков), Консоль управления AWS и интерфейс командной строки AWS. Пользователь получает полный контроль над всеми возможностями Amazon Polly независимо от того, каким образом выполняется управление сервисом – с помощью консоли, API или интерфейса командной строки.

Пользовательский лексикон

С помощью пользовательского лексикона (словарей) в Amazon Polly можно изменить произношение отдельных слов, таких как названия компаний, аббревиатур, иностранных слов и неологизмов (например, «ROTFL», «C’est la vie», когда этот текст произносит не французский голос). Чтобы настроить произношение, необходимо загрузить файл XML с лексическими записями. Например, можно настроить произношение «Nguyen», предоставив фонему с помощью следующего фрагмента кода XML:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Подробнее о ценах на Amazon Polly

Перейти на страницу цен
Готовы начать?
Регистрация
Есть вопросы?
Свяжитесь с нами