Amazon Polly

Amazon Polly: generador de voz con IA

Implemente voces humanas de alta calidad y naturalidad en docenas de idiomas

Cree una cuenta de AWS

Comience a usar Amazon Polly

¿Qué es Amazon Polly?

Amazon Polly es un servicio totalmente administrado que genera voz bajo demanda y convierte cualquier texto en una transmisión de audio. Uso de tecnologías de aprendizaje profundo para convertir artículos, páginas web, documentos PDF y otros textos a voz (TTS). Polly ofrece docenas de voces realistas en un amplio conjunto de idiomas para que pueda crear aplicaciones activadas por voz que atraigan y conviertan. Satisfaga las diversas necesidades lingüísticas, de accesibilidad y de aprendizaje de los usuarios de todas las geografías y mercados. Las potentes redes neuronales y los motores generativos de voz funcionan en segundo plano para sintetizar la voz por usted. Integre la API de Amazon Polly en sus aplicaciones existentes para estar listas para la voz rápidamente.

Casos de uso

Agregue voz a las aplicaciones con una audiencia global, como los canales RSS, los sitios web o los videos. Prepare sus aplicaciones móviles y de IoT para la voz del futuro.

Más información sobre la generación de voz.

Almacene y reproduzca la salida de voz de Amazon Polly para interactuar con las personas que llaman a través de sistemas de respuesta de voz interactivos o automatizados. Use las capacidades de la IA para generar voces que conecten de manera emocional con sus clientes.

Obtenga más información sobre los motores de voz

Cree voces en off para animaciones, videojuegos y otros medios directamente desde sus guiones. Use SSML, un lenguaje de marcado basado en XML estándar del W3C, para ajustar el fraseo, el énfasis y la entonación de modo que coincidan con la escena. Ajuste de manera automática la duración del discurso para facilitar el doblaje multilingüe.

Más información sobre SSML

Capacidades

Amazon Polly cuenta con una variedad de capacidades, entre las que se incluyen algunas que se enumeran a continuación

Voces realistas

Ofrezca experiencias de usuario conversacionales con tiempos de respuesta rápidos y constantes

Al solicitar la salida de Amazon Polly, puede elegir entre docenas de voces realistas en varios idiomas. Cada voz se crea con hablantes nativos, con variaciones de voz a voz incluso dentro del mismo idioma. La mayoría de los idiomas incluyen una o más voces masculinas y femeninas, por lo que puede elegir la que mejor se adapte a su caso de uso.

A woman wearing a yellow jacket stands outside, smiling while using a pink smartphone near a metal railing and modern structure.

Salida personalizable

Personalice y controle la salida de voz según sea necesario

Amazon Polly permite crear salidas personalizadas de conversión de texto a voz que atraigan y mantengan la atención de su audiencia. Utilice léxicos personalizados para modificar la pronunciación de las siglas, los nombres de las empresas, la terminología interna o cualquier otra palabra que elija. Las etiquetas Speech Synthesis Markup Languages (SSML) de Amazon Polly también permiten ajustar el énfasis, la entonación, el fraseo y el estilo. Genere la salida de IA de voz que mejor se adapte a su negocio.

Two people collaborating at a desk, with one working on code displayed on a laptop and the other pointing to a data visualization of yellow data points on a computer monitor, representing artificial intelligence or machine learning analysis.

El poder de la IA generativa

Acceda a las capacidades de IA generativa integradas a una fracción del costo

Amazon Polly admite varios motores de voz entre los que puede elegir para convertir texto en voz. El motor implementa un transformador de mil millones de parámetros para generar voces de manera gradual y transmisible. Este generador de voz de IA crea un discurso sintético que es asertivo, emocionalmente comprometido y muy coloquial, similar a una voz humana real.

Conversión de texto a voz

People collaborating at a wooden table with laptops, smartphone, potted plant, and a lightbulb lamp, suggesting teamwork and brainstorming in a modern workspace.

Control y seguridad

Almacene y redistribuya habla en formatos estándar de forma segura

Guarde su salida de conversión de texto a voz en archivos de audio estándar, como MP3 y OGG, para redistribuirlos, analizarlos, archivarlos o cualquier otro uso sin costo adicional. Guarde sus archivos en caché para recuperarlos más rápido si es necesario. La seguridad, la confianza y la privacidad de su contenido son las principales prioridades de AWS. Amazon Polly no retiene el contenido de los textos que envía.

Preguntas frecuentes

Sí. Amazon Polly ofrece servicios de IA de conversión de texto a voz gratuitos durante un año a partir del registro, hasta un umbral de uso mínimo. El umbral varía de 100 mil caracteres a 5 millones de caracteres, según el motor de voz que elija. Para obtener más información, consulte los precios de Amazon Polly.

Amazon Polly ofrece más de 100 voces estándar masculinas y femeninas en más de 40 idiomas y variantes lingüísticas. AWS actualiza y amplía constantemente nuestras capacidades de voz.

Amazon Polly produce MP3, ogg y otros formatos de archivos de audio estándar muestreados a 8000 Hz, 16 000 Hz y 22 050 Hz.

La respuesta es sí. Actualmente, Alexa usa la tecnología de Polly para impulsar la solución de generación de texto a voz. Sin embargo, las voces de Alexa se crearon exclusivamente para Alexa y no están disponibles externamente.

No. Amazon Polly es un servicio de IA en la nube totalmente administrado. Se comunica con él mediante las API de su código. No puede descargar ni desplegar el código fuente de Amazon Polly en su entorno. Sin embargo, puede usar Amazon Polly de forma gratuita (hasta un umbral de uso predeterminado) durante 12 meses a partir de su inicio. Para obtener más información, consulte los precios de Amazon Polly.