Pruebe Amazon Polly

Inscríbase para obtener una cuenta gratuita
O inicie sesión en la consola

La capa gratuita de Amazon Polly incluye 5 millones de caracteres al mes, durante los primeros 12 meses, a partir de la primera solicitud de habla.

Consulte los detalles de la capa gratuita de AWS »


P: ¿Qué es Amazon Polly?

Amazon Polly es un servicio que transforma texto en habla realista. Amazon Polly incluye una característica de primera clase que permite a las aplicaciones existentes hablar y crea la oportunidad de nuevas categorías de productos con funciones de habla, desde aplicaciones móviles y coches, hasta dispositivos de diversos tipos. Amazon Polly incluye decenas de voces realistas y soporte para varios idiomas, de modo que puede seleccionar la voz ideal y distribuir las aplicaciones con voz en muchos países distintos. Amazon Polly es fácil de usar: basta con que envíe el texto que desea convertir en habla a la API de Amazon Polly, y Amazon Polly enviará la transmisión de audio al instante a su aplicación, para que pueda reproducirlo directamente o almacenarlo en un formato de archivo de audio estándar, como MP3. Amazon Polly admite etiquetas Speech Synthesis Markup Language (SSML) como prosodia para que pueda ajustar la velocidad de habla, el tono o el volumen. Amazon Polly es un servicio seguro que ofrece todos estos beneficios a gran escala y con baja latencia. Puede almacenar en caché y volver a reproducir el habla generada por Amazon Polly sin costo adicional. Amazon Polly le permite convertir 5 millones de caracteres al mes gratis durante el primer año, tras la inscripción. Los precios de pago por uso, el bajo costo por solicitud y la ausencia de restricciones de almacenamiento y reutilización de la salida de voz de Amazon Polly lo convierten en una forma rentable de habilitar la síntesis de habla en cualquier lugar.

P: ¿Por qué debería utilizar Amazon Polly?

Puede utilizar Amazon Polly para mejorar su aplicación con habla de alta calidad. Este servicio rentable ofrece tiempos de respuesta muy bajos y está disponible para prácticamente cualquier caso de uso, sin restricciones de almacenamiento o reutilización del habla generada.

P: ¿Qué características están disponibles?

Puede controlar diversos aspectos del habla como la pronunciación, el volumen, el tono, la velocidad de habla, etc. mediante el sistema Speech Synthesis Markup Language (SSML) estandarizado. Puede detectar cuándo palabras u oraciones específicas del texto están hablando con el usuario basándose en los metadatos incluidos en el flujo de audio. Esto permite al desarrollador sincronizar el resaltado gráfico y las animaciones, como los movimientos de los labios de un avatar, con el habla sintetizada. Puede modificar la pronunciación de palabras concretas, como nombres de empresa, acrónimos, palabras extranjeras y neologismos, p. ej., "P!nk", "ROTFL", "C’est la vie" (cuando se habla con una voz no francesa) utilizando léxicos personalizados.

P: ¿Qué son las marcas de voz?

Las marcas de voz están diseñadas para complementar el habla sintetizada que se genera a partir del texto de entrada. Al usar este flujo de metadatos junto con el flujo de audio de voz sintetizada, los clientes pueden crear sus aplicaciones con una experiencia visual mejorada, como animación sincronizada con voz o resaltado estilo karaoke.

Amazon Polly genera marcas de voz utilizando los cuatro elementos siguientes:

1) Frase, que indica un elemento de frase en el texto de entrada para que se pronuncie;

2) Palabra, que indica un elemento de palabra en el texto;

3) Visema, que describe la forma de los labios que corresponde al sonido que se habla;

4) SSML, que describe un elemento SSML utilizado en el texto.

Las marcas de voz se entregan con forma de una secuencia JSON -- específicamente, un conjunto de objetos JSON independientes delimitados con nuevas líneas -- que contiene de uno a cuatro de estos elementos, cuando se usa el método sintetizar voz con el parámetro tipos de marcas de voz. Puede encontrar más información en la Guía para desarrolladores de Amazon Polly.

P:. ¿Cuáles son los casos de uso más comunes para este servicio?

Con Amazon Polly, puede hacer que sus aplicaciones cobren vida incorporando capacidades de habla realista. Por ejemplo, en formación online y educación, puede crear aplicaciones aprovechando la capacidad de texto a habla (TTS) de Amazon Polly para ayudar a personas con dificultades para leer. Amazon Polly se puede utilizar para ayudar a las personas invidentes y con discapacidad visual a consumir contenido digital (eBooks, noticias, etc.). Amazon Polly se puede utilizar en sistemas de anuncios en transporte público y sistemas de control industrial para notificaciones y anuncios de emergencia. Existe una amplia gama de dispositivos como decodificadores, relojes inteligentes, tablets, smartphones y dispositivos de IoT, que pueden utilizar Amazon Polly para proporcionar salida de audio. Amazon Polly se puede utilizar en soluciones de telefonía para sistemas de respuesta de voz interactiva. Aplicaciones como juegos de preguntas, animaciones, avatares o generación de narración son casos de uso comunes para la solución TTS en la nube como Amazon Polly.

P: ¿Cómo funciona este producto con otros productos de AWS?

Cuando se combina con Amazon Lex, los desarrolladores pueden crear interfaces de usuario de voz completa para sus aplicaciones. Dentro de Amazon Connect, la voz de Amazon Polly se utiliza para crear servicios de centro de contacto basados en la nube de autoservicio. Además, los desarrolladores de aplicaciones móviles y soluciones de Internet de las cosas (IoT) pueden aprovechar Amazon Polly para agregar salida de voz a sus propios sistemas.

P: ¿Qué ventajas tiene la solución de texto a habla en la nube en comparación con la integrada en un dispositivo?

Las soluciones de texto a habla integradas en un dispositivo requieren que dicho dispositivo tenga disponibles recursos informáticos considerables, sobre todo potencia de CPU, RAM y espacio en disco. Esto puede generar un costo de desarrollo superior y mayor consumo de potencia en dispositivos como tablets, smartphones, etc. Por el contrario, la conversión de texto a habla realizada en la nube reduce drásticamente los requisitos de recursos locales. Esto permite soportar todos los idiomas y las voces disponibles con la mayor calidad posible. Además, las correcciones y mejoras de habla están disponibles de forma instantánea para todos los usuarios finales y no requieren más actualizaciones de todos los dispositivos. El sistema de texto a habla (TTS) en la nube no depende de la plataforma, por lo que minimiza el tiempo y el esfuerzo de desarrollo.

P: ¿Cómo puedo comenzar a utilizar Amazon Polly?

Basta con iniciar sesión en la cuenta de AWS y desplazarse hasta la consola de Amazon Polly (que forma parte de la consola de AWS). Después puede utilizar la consola para escribir cualquier texto y escuchar el habla generada o guardarla como un archivo de audio.

P: ¿En qué regiones está disponible el servicio?

Es posible obtener acceso a Amazon Polly en todo el mundo desde las siguientes 14 regiones de AWS: Asia Pacífico (Mumbai), Asia Pacífico (Seúl), Asia Pacífico (Singapur), Asia Pacífico (Sídney), Asia Pacífico (Tokio), Canadá (Central), UE (Fráncfort), UE (Irlanda), UE (Londres), América del Sur (São Paulo), EE.UU. Este (Norte de Virginia), EE.UU. Este (Ohio), EE.UU. Oeste (Norte de California), EE.UU. Oeste (Oregón).

P: ¿Qué lenguajes de programación soporta?

Amazon Polly soporta todos los lenguajes de programación incluidos en el AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go y C++) y el SDK para móviles de AWS (iOS/Android). Amazon Polly también soporta una API de HTTP para que pueda implementar su propia capa de acceso.

P: ¿Qué formatos de audio soporta?

Con Amazon Polly, puede transmitir audio a sus usuarios casi en tiempo real. Puede elegir entre varias tasas de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Amazon Polly soporta MP3, Vorbis y formatos de transmisión de audio PCM sin procesar.

P: ¿Qué idiomas soporta?

Inglés (EE.UU.) Neerlandés Coreano Español (América)
Inglés (Australia) Francés Polaco Sueco
Inglés (Reino Unido) Francés (Canadá)
Portugués Turco
Inglés (India) Alemán Portugués (Brasil)
Noruego
Inglés (Gales) Islandés Rumano  
Galés Italiano Ruso
  
Danés Japonés Español (España)
 

P: ¿Amazon Polly tiene limitaciones de servicio de AWS?

Para ayudar a garantizar la disponibilidad de los recursos de AWS y reducir riesgos de facturación de nuevos clientes, AWS conserva limitaciones de servicio para cada cuenta. Cuando utiliza Amazon Polly con su aplicación con salida de voz de alta calidad, existen limitaciones de servicio predeterminadas que incluyen: limitación controlada, operaciones y lenguaje de marcado de síntesis de voz (SSML). Para obtener más detalles, consulte los límites de Amazon Polly en la guía para desarrolladores de Amazon Polly. Combinar Amazon Polly con otros servicios de AWS, como AWS Batch para lograr un procesamiento de lotes eficiente, puede ayudarlo a sacar el máximo provecho de Amazon Polly dentro de dichos límites de servicio.


P: ¿Cuánto cuesta Amazon Polly?

Consulte la página de precios de Amazon Polly para ver información actualizada de precios.

P: ¿Puedo usar el servicio para generar indicaciones de voz estáticas que se reproduzcan varias veces?

Sí, sí puede. El servicio no restringe este uso y no implica costos adicionales.

P: ¿Puedo usar el servicio para generar contenido que se utilizará en sistemas de notificación masiva (por ejemplo, en una estación de tren)?

Sí, sí puede. El servicio no restringe este uso y no implica costos adicionales.

P. Si solicito sintetizar 1000 caracteres y solicito marcas de voz con los mismos 1000 caracteres, ¿me cobrarán por 2000 caracteres?

Sí. Se le cobrará por cada solicitud de habla o de marca de voz según el número de caracteres que envíe al servicio.

P: ¿Amazon Polly participa en la capa gratuita de AWS?

Sí, como parte de la capa de uso gratuita de AWS, puede comenzar a utilizar Amazon Polly de forma gratuita. Tras la inscripción, los nuevos clientes de Amazon Polly pueden sintetizar hasta 5 millones de caracteres gratis cada mes durante los primeros 12 meses.

P: ¿Los impuestos están incluidos en los precios?

Para obtener más información sobre impuestos, consulte la ayuda sobre impuestos de Amazon Web Services.


P: ¿Utilizará Amazon Polly mi contenido para mejorar su servicio? ¿Cuál es la política de privacidad de Amazon Polly?

Amazon Polly puede utilizar su contenido para mejorar la calidad de nuestras ofertas de servicio y otros productos y servicios relacionados con el aprendizaje automático ofrecidos por AWS y sus filiales. Parte de su contenido es vital para el desarrollo futuro de la tecnología subyacente y la mejora de la experiencia del cliente de Amazon Polly. Su confianza, su privacidad y la seguridad de su contenido son nuestra mayor prioridad e implementamos controles físicos y técnicos sofisticados y responsables diseñados para evitar el acceso no autorizado o la divulgación de su contenido y garantizar que nuestro uso cumpla con nuestros compromisos con usted. Consulte las Preguntas frecuentes de privacidad de datos de AWS para obtener más información.