Перейти к главному контенту

Amazon Polly – голосовой генератор на основе искусственного интеллекта

Используйте высококачественные, естественно звучащие человеческие голоса на десятках языков

Что такое Amazon Polly?

Amazon Polly – это полностью управляемый сервис, который генерирует голос по запросу и преобразует любой текст в аудиопоток. Использование технологий глубокого обучения для преобразования статей, веб-страниц, PDF-документов и другого текста в речь (TTS). Polly предоставляет десятки реалистичных голосов на широком наборе языков, чтобы вы могли создавать приложения с речевой активацией, которые повышают конверсию и вовлеченность. Удовлетворяйте различные языковые запросы, потребности в доступности и обучении пользователей из разных регионов и рынков. Мощные нейронные сети и генеративные голосовые движки работают в фоновом режиме, синтезируя речь за вас. Интегрируйте API Amazon Polly в существующие приложения, чтобы быстро приступить к синтезу речи. 

  

Примеры использования

Добавьте голосовые возможности в приложения с глобальной аудиторией, такие как ленты RSS, веб-сайты или видео. Подготовьте свои мобильные и IoT-приложения к будущему голосового синтеза.

Подробнее о генерировании речи

Храните и воспроизводите выходные голосовые сообщения Amazon Polly, чтобы делать подсказки вызывающим абонентам через системы интерактивного или автоматизированного голосового ответа. Используйте возможности ИИ, чтобы генерировать голоса, которые эмоционально близки вашим клиентам.

Подробнее о голосовых движках

Создавайте закадровый голос для анимации, игр и других медиафайлов прямо из сценариев. Используйте SSML, стандартный язык разметки W3C на основе XML, чтобы настроить фразировку, ударение и интонацию в соответствии со сценой. Настройте автоматическую регулировку продолжительности речи для облегчения многоязычного озвучивания.

Подробнее об SSML

Возможности

Amazon Polly обладает различными возможностями, включая перечисленные ниже.

Реалистичные голоса

Обеспечьте диалоговое взаимодействие пользователей с неизменно быстрым откликом

Запрашивая выходные данные Amazon Polly, можно выбирать из десятков реалистичных голосов на разных языках. Каждый голос создан при помощи носителей языка с вариациями от голоса к голосу даже на одном языке. Большинство языков поддерживают один или несколько мужских и женских голосов, что дает возможность выбора наиболее подходящего голоса для отдельного примера использования.

A woman wearing a yellow jacket stands outside, smiling while using a pink smartphone near a metal railing and modern structure.

Настраиваемые выходные данные

Получите возможность настройки речевых выходных данных и управления ими

Amazon Polly предоставляет возможность создавать собственные выходные данные преобразования текста в речь, привлекающие и удерживающие внимание аудитории. Используйте пользовательский лексикон для изменения произношения акронимов, названий компаний, внутренней терминологии или любых других выбранных слов. Теги языков разметки синтеза речи (SSML) Amazon Polly также предоставляют возможность менять ударение, интонацию, фразировку и стиль. Создавайте голосовые выходные данные с помощью искусственного интеллекта, наиболее подходящие для вашего бизнеса.

Missing alt text value

Мощность генеративного искусственного интеллекта

Получите доступ ко встроенным возможностям генеративного искусственного интеллекта по доступной цене

Amazon Polly поддерживает несколько голосовых движков, доступных для преобразования текста в речь. Движок развертывает трансформер с миллиардом параметров, позволяющий генерировать голоса поэтапно и с возможностью потоковой передачи. Этот генератор голоса с искусственным интеллектом создает синтетическую речь, похожую на настоящий человеческий голос: убедительную, эмоционально насыщенную и разговорную по своей природе.

People collaborating at a wooden table with laptops, smartphone, potted plant, and a lightbulb lamp, suggesting teamwork and brainstorming in a modern workspace.

Контроль и безопасность

Безопасное хранение и распространение речи в стандартных форматах 

Сохраняйте выходные данные преобразования текста в речь в стандартных форматах аудиофайлов, таких как MP3 и OGG, для распространения, анализа, архивирования или любого другого примера использования без дополнительной платы. Кешируйте файлы для более быстрого извлечения при необходимости. Безопасность пользовательского контента, доверие и конфиденциальность – главные приоритеты AWS. Amazon Polly не сохраняет содержимое отправленных текстовых сообщений.

Missing alt text value

Вопросы и ответы

Да. Amazon Polly предлагает бесплатные сервисы искусственного интеллекта для преобразования текста в речь в течение одного года после регистрации до исчерпания лимита использования. Лимит варьируется от 100 тысяч до 5 миллионов символов в зависимости от выбранного голосового движка. Дополнительные сведения см. на странице Цены на Amazon Polly.
В Amazon Polly имеется более 100 мужских и женских голосов на более чем 40 языках и диалектах. AWS постоянно обновляет и расширяет голосовые возможности.
Amazon Polly создает аудиофайлы в форматах MP3, ogg и других стандартных форматах аудиофайлов с частотой 8000 Гц, 16 000 Гц и 22 050 Гц.
Да, использует. В настоящее время Alexa использует технологию Polly для обеспечения функционирования решения по преобразованию текста в речь. Однако голоса Alexa были созданы исключительно для Alexa и не предназначены для использования в сторонних системах.
Нет. Amazon Polly – это полностью управляемый облачный сервис искусственного интеллекта. Вы взаимодействуете с ним, используя API в своем коде. Загрузить или развернуть исходный код Amazon Polly в своей среде невозможно. Однако Amazon Polly можно использовать бесплатно (в рамках заранее установленного лимита) в течение 12 месяцев с момента регистрации. Дополнительные сведения см. на странице Цены на Amazon Polly.