Amazon Polly: generador de voz con IA

Despliegue voces humanas de alta calidad y naturalidad en docenas de idiomas

¿Qué es Amazon Polly?

Amazon Polly es un servicio totalmente administrado que genera voz bajo demanda y convierte cualquier texto en una transmisión de audio. Uso de tecnologías de aprendizaje profundo para convertir artículos, páginas web, documentos PDF y otros textos a voz (TTS). Polly ofrece docenas de voces realistas en un amplio conjunto de idiomas para que pueda crear aplicaciones activadas por voz que atraigan y conviertan. Satisfaga las diversas necesidades lingüísticas, de accesibilidad y de aprendizaje de los usuarios de todas las geografías y mercados. Las potentes redes neuronales y los motores generativos de voz funcionan en segundo plano para sintetizar la voz por usted. Integre la API de Amazon Polly en sus aplicaciones existentes para estar listas para la voz rápidamente. 

Capacidades

Amazon Polly cuenta con una variedad de capacidades, entre las que se incluyen algunas que se enumeran a continuación

Voces realistas

Ofrezca experiencias de usuario conversacionales con tiempos de respuesta rápidos y constantes

Al solicitar la salida de Amazon Polly, puede elegir entre docenas de voces realistas en varios idiomas. Cada voz se crea con hablantes nativos, con variaciones de voz a voz incluso dentro del mismo idioma. La mayoría de los idiomas incluyen una o más voces masculinas y femeninas, por lo que puede elegir la que mejor se adapte a su caso de uso.

Mujer en un puente con teléfono usando una chaqueta amarilla

Salida personalizable

Personalice y controle la salida de voz según sea necesario

Amazon Polly permite crear salidas personalizadas de conversión de texto a voz que atraigan y mantengan la atención de su audiencia. Utilice léxicos personalizados para modificar la pronunciación de las siglas, los nombres de las empresas, la terminología interna o cualquier otra palabra que elija. Las etiquetas Speech Synthesis Markup Languages (SSML) de Amazon Polly también permiten ajustar el énfasis, la entonación, el fraseo y el estilo. Genere la salida de IA de voz que mejor se adapte a su negocio.

Imagen de hombres trabajando en una oficina

Poder de la IA generativa

Acceda a las capacidades de IA generativa integradas a una fracción del costo

Amazon Polly admite varios motores de voz entre los que puede elegir para convertir texto en voz. El motor implementa un transformador de mil millones de parámetros para generar voces de manera gradual y transmisible. Este generador de voz de IA crea un discurso sintético que es asertivo, emocionalmente comprometido y muy coloquial, similar a una voz humana real.

Jóvenes empresarios colaborando en un nuevo proyecto

Control y seguridad

Almacene y redistribuya habla en formatos estándar de forma segura

Guarde su salida de conversión de texto a voz en archivos de audio estándar, como MP3 y OGG, para redistribuirlos, analizarlos, archivarlos o cualquier otro uso sin costo adicional. Guarde sus archivos en caché para recuperarlos más rápido si es necesario. La seguridad, la confianza y la privacidad de su contenido son las principales prioridades de AWS. Amazon Polly no retiene el contenido de los textos que envía.

Imagen de las manos de una persona mientras trabaja en una PC

Casos de uso

Añada voz a las aplicaciones con una audiencia global, como los canales RSS, los sitios web o los videos. Prepare sus aplicaciones móviles y de IoT para la voz del futuro.

Obtenga más información sobre la generación de voz.

Almacene y reproduzca la salida de voz de Amazon Polly para indicar a las personas que llaman a través de sistemas de respuesta de voz interactivos o automatizados. Use las capacidades de la IA para generar voces que conecten emocionalmente con sus clientes.

Obtenga más información sobre los motores de voz

Cree voces en off para animaciones, juegos y otros medios directamente desde sus guiones. Use SSML, un lenguaje de marcado basado en XML estándar del W3C, para ajustar el fraseo, el énfasis y la entonación para que coincidan con la escena. Ajuste automáticamente la duración del discurso para facilitar el doblaje multilingüe.

Más información sobre SSML