Попробовать Amazon Polly

Зарегистрируйте бесплатный аккаунт
или войти в Консоль

Уровень бесплатного пользования Amazon Polly включает 5 миллионов символов в месяц в течение первых 12 месяцев с момента первого запроса на преобразование в речь.

Подробнее об уровне бесплатного пользования AWS »


Вопрос: Что такое Amazon Polly?

Amazon Polly – это сервис, преобразующий текст в естественную речь. Сервис Amazon Polly позволяет озвучивать существующие приложения с первоклассным качеством и использовать поддержку речевых интерфейсов в продуктах совершенно новых категорий, от мобильных приложений и автомобилей и до различных устройств и бытовых приборов. Amazon Polly включает в себя несколько десятков естественно звучащих голосов и поддерживает множество языков. Таким образом, пользователи могут выбрать подходящий голос и распространять свои приложения с поддержкой речевых интерфейсов в различных географических регионах. Сервис Amazon Polly прост в использовании – достаточно отправить текст, который необходимо конвертировать в речь, в API Amazon Polly, и Amazon Polly немедленно возвращает в приложение звуковой поток, который можно сразу воспроизвести или сохранить в стандартном аудиоформате, например MP3. Сервис Amazon Polly поддерживает теги языка разметки синтеза речи (SSML), такие как prosody, что позволяет регулировать скорость речи, интонации и громкость. Amazon Polly является безопасным сервисом, который предлагает все эти возможности при любом масштабе с низкими задержками. Сгенерированную сервисом Amazon Polly речь можно кэшировать и воспроизводить повторно без дополнительной платы. Amazon Polly позволяет бесплатно конвертировать 5 млн символов в месяц в течение первого года после регистрации. Оплата Amazon Polly по факту использования, низкая стоимость обработки запросов и отсутствие ограничений на хранение и повторное использование голосовых выходных данных делают сервис экономным средством синтеза речи для любых сфер применения.

Вопрос: Каковы преимущества использования сервиса Amazon Polly?

Amazon Polly можно использовать для обеспечения в приложении высококачественного речевого вывода. Этот экономичный сервис работает с очень малыми задержками, его можно применить практически для любого примера использования, без ограничений на хранение и повторное использование синтезированной речи.

Вопрос: Какие возможности доступны в сервисе?

Можно управлять различными параметрами речи, такими как произношение, громкость, высота голоса, скорость речи и т. д., с помощью стандартизированного языка разметки синтеза речи (SSML). На основе метаданных, включенных в аудиопоток, можно определить, когда конкретные слова или предложения в тексте воспроизводятся пользователю. Это позволяет разработчику синхронизировать графическое выделение и анимацию, такую как движение губ анимированного персонажа, с синтезированной речью. С использованием специальной лексики можно изменять произношение отдельных слов, таких как названия компаний, акронимы, иностранные слова и неологизмы, например «P!nk», «ROTFL», «C’est la vie» (при произнесении не по-французски).

Вопрос: Что такое речевые метки?

Речевые метки предназначены для дополнения синтезированной речи, генерируемой из входного текста. Используя эти метаданные вместе с аудиопотоком синтезированного речевого сигнала, клиенты могут добавлять в свои приложения улучшенные визуальные возможности, например анимацию, синхронизированную с речью, или выделение текста в стиле караоке.

Amazon Polly генерирует речевые метки с помощью следующих четырех элементов:

1) элемент предложения, который указывает произносимое предложение во входящем тексте;

2) элемент слова, который указывает слово в тексте;

3) элемент виземы, который описывает форму губ, соответствующую произносимому звуку;

4) элемент SSML, который описывает SSML, используемый в тексте.

Речевые метки реализуются в форме потока JSON – а именно, как набор отдельных объектов JSON, разделенных новыми строками – содержащего от одного до всех четырех этих элементов, при использовании способа синтезирования речи с параметром типов речевых меток. Подробную информацию см. в Руководстве для разработчиков по Amazon Polly.

Вопрос: Какие наиболее распространенные примеры использования этого сервиса?

С помощью Amazon Polly можно оживить приложение, добавив в него возможности естественной речи. Например, приложения, использующие возможности Amazon Polly по преобразованию текста в речь (TTS), можно создавать в сфере образовании и дистанционного обучения, чтобы помочь людям, которые не могут читать. Amazon Polly можно использовать, чтобы обеспечить доступ к цифровому контенту (электронным книгам, новостям и т. д.) слепым и слабовидящим людям. Сервис Amazon Polly можно использовать в информационных системах на общественном транспорте и в промышленных системах управления для оповещений и аварийных предупреждений. Возможности Amazon Polly по предоставлению звукового вывода могут использоваться на широком спектре устройств, таких как телевизионные приставки, умные часы, планшеты, смартфоны и устройства IoT. Amazon Polly можно использовать в телефонии для создания интерактивных систем ответа на телефонные звонки. Типовыми применениями облачных решений по преобразованию текста в речь (TTS), таких как Amazon Polly, являются игры-викторины, анимация, создание видеообразов или дикторского текста.

Вопрос: Как сервис Amazon Polly работает с другими продуктами AWS?

Используя Amazon Polly в сочетании с Amazon Lex, разработчики могут создавать полноценный голосовой пользовательский интерфейс для приложений. В Amazon Connect речь Amazon Polly используется для создания облачного контактного центра с возможностью самостоятельного обслуживания. Кроме этого, разработчики мобильных приложения и решений Интернета вещей (IoT) могут использовать Amazon Polly для добавления к собственным системам речевого вывода.

Вопрос: Каковы преимущества облачных решений по преобразования текста в речь над встроенными в устройство решениями?

Встроенные в устройство решения по преобразованию текста в речь требуют значительных вычислительных ресурсов, в первую очередь мощного ЦПУ, большой оперативной памяти и доступного дискового пространства. Это может привести к более высоким затратам на разработку и более высокому потреблению энергии на устройствах, таких как планшеты, смартфоны и т. д. Выполняемое в облаке преобразование текста в речь, напротив, значительно снижает требования к локальным вычислительным ресурсам. При этом появляется возможность поддержки всех доступных языков и голосов с очень высоким качеством. Более того, исправления и улучшения речи сразу становятся доступны конечным пользователям без дополнительного обновления ПО на всех устройствах. Облачное преобразование текста в речь (TTS) не зависит от платформы, что сводит к минимуму время и трудоемкость разработки.

Вопрос: Как начать работу с Amazon Polly?

Нужно просто войти в аккаунт AWS и перейти в консоль сервиса Amazon Polly (она является частью консоли AWS). После этого можно с консоли вводить любой текст и прослушивать синтезированную речь или сохранять ее в виде аудиофайла.

Вопрос: В каких регионах доступен этот сервис?

Сервис Amazon Polly доступен по всему миру в следующих 14 регионах AWS: Азия и Тихий океан (Мумбаи), Азия и Тихий океан (Сеул), Азия и Тихий океан (Сингапур), Азия и Тихий океан (Сидней), Азия и Тихий океан (Токио), Канада (Центр), ЕС (Франкфурт), ЕС (Ирландия), ЕС (Лондон), Южная Америка (Сан-Паулу), Восток США (Сев. Вирджиния), Восток США (Огайо), Запад США (Сев. Калифорния), Запад США (Орегон).

Вопрос: Какие языки программирования поддерживаются сервисом?

Amazon Polly поддерживает все языки программирования, включенные в SDK AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go и C++) и AWS Mobile SDK (iOS/Android). Amazon Polly также поддерживает API HTTP, поэтому можно реализовать свой собственный уровень доступа.

Вопрос: Какие аудио-форматы поддерживаются сервисом?

С помощью Amazon Polly можно передавать звуковой поток пользователям в режиме, близком к режиму реального времени. Для оптимизации полосы частот и качества звука для приложения можно выбирать различные частоты дискретизации. Amazon Polly поддерживает звуковые потоки в форматах MP3, Vorbis и несжатом формате PCM.

Вопрос: Какие языки поддерживаются сервисом?

Американский английский Голландский Корейский Американский испанский
Австралийский английский Французский Польский Шведский
Британский английский Канадский французский
Португальский Турецкий
Индийский английский Немецкий Бразильский португальский
Норвежский
Уэльский английский Исландский Румынский  
Уэльский Итальянский Русский
  
Датский Японский Кастильский испанский
 

Вопрос: Действуют ли лимиты AWS для сервиса Amazon Polly?

Для обеспечения доступности всех ресурсов AWS и сокращения риска чрезмерных расходов для новых клиентов AWS устанавливает для каждого аккаунта лимиты на использование сервисов. При использовании в приложении сервиса качественного преобразования текста в речь Amazon Polly в действие вступают лимиты по умолчанию, в том числе лимиты на ограничение полосы пропускания, количество операций и использование языка Speech Synthesis Markup Language (SSML). Подробнее см. в разделе Лимиты для Amazon Polly Руководства для разработчиков по Amazon Polly. При использовании Amazon Polly совместно с другими сервисами AWS, например с AWS Batch для эффективной обработки пакетных задач, можно добиться максимально эффективной работы Amazon Polly в рамках установленных лимитов сервиса.


Вопрос: Сколько стоит работа с сервисом Amazon Polly?

Ознакомьтесь с действующими ценами на странице цен на Amazon Polly.

Вопрос: Можно ли использовать сервис для создания статических голосовых подсказок, которые будут проигрываться несколько раз?

Да, можно. В сервисе нет ограничений на такое использование, и дополнительная плата за это взиматься не будет.

Вопрос: Можно ли использовать сервис для создания контента, который будет использоваться в системах массового оповещения (например, на вокзалах)?

Да, можно. В сервисе нет ограничений на такое использование, и дополнительная плата за это взиматься не будет.

Вопрос: Если я запрошу 1000 символов для преобразования в речь и запрошу речевые метки для этих же 1000 символов, будет ли начислена плата за 2000 символов?

Да. Плата будет взиматься за каждый запрос на преобразование в речь или речевые метки на основании количества символов, которое вы отправите в сервис.

Вопрос: Распространяется ли уровень бесплатного пользования AWS на Amazon Polly?

Да, в рамках уровня бесплатного пользования AWS работу с Amazon Polly можно начать бесплатно. После регистрации новые пользователи Amazon Polly могут бесплатно синтезировать до 5 млн символов ежемесячно в течение первых 12 месяцев.

Вопрос: Ваши цены указаны с учетом налогов?

Подробнее о налогах см. на странице Справка по налогам при работе с Amazon Web Services.


Вопрос: Использует ли Amazon Polly мой контент для повышения качества работы сервиса? Какова политика конфиденциальности для Amazon Polly?

Amazon Polly может использовать пользовательский контент для улучшения качества работы сервиса, а также других продуктов и сервисов в сфере машинного обучения, предлагаемых AWS и ее дочерними компаниями. Некоторое использование пользовательского контента имеет большое значение для дальнейшего развития базовой технологии и улучшения качества работы сервиса Amazon Polly. Доверие клиентов, конфиденциальность и безопасность их контента являются главными приоритетами компании. Мы применяем надежные комплексные технические и физические средства контроля, предназначенные для предотвращения неавторизованного доступа к данным и контенту клиентов, и гарантируем, что использование этих данных соответствует нашим обязательствам перед клиентами. Для получения дополнительных сведений ознакомьтесь с вопросами и ответами по защите данных в AWS