API de uso sencillo

Amazon Polly proporciona una API que le permite integrar la síntesis del habla en su aplicación de manera rápida. Simplemente envía el texto que desea convertir en habla a la API de Amazon Polly, y Amazon Polly le envía al instante la transmisión de audio a su aplicación, para que pueda comenzar a transmitirla directamente o almacenarla en un formato de archivo de audio estándar, como MP3.

Frecuencia de muestreo Código de muestra
"Hi. My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Amplia selección de voces e idiomas

Amazon Polly incluye decenas de voces realistas y es compatible con varios idiomas, de manera que puede seleccionar la voz ideal y distribuir sus aplicaciones con voz en numerosos países. Además de las voces estándar y de texto a voz neuronal (NTTS), Amazon Polly ofrece ahora voces de forma larga que mejoran la calidad del habla para conseguir voces más naturales y parecidas a las humanas.

Danielle, Gregory y Ruth son voces en inglés estadounidense disponibles en variantes largas y neuronales.

Todas las voces de Polly
Idioma o variante de idioma Mujer Hombre
     
Árabe-MSA Zeina  
Árabe (del Golfo) Hala (neuronal) Zayd (neuronal)
Cantonés Hiujin (Neural)  
Catalán Arlet (Neural)  
Danés Sofie (neuronal) Mads
  Naja  
Neerlandés Laura (Neuronal) Ruben
  Lotte  
Neerlandés (flamenco) - Bélgica Lisa (neuronal)  
Inglés - India Kajal (neuronal)  
  Raveena  
  Aditi  
Inglés - Irlanda Niamh (neuronal)  
Inglés - Nueva Zelanda Aria (Neural)  
Inglés - Sudáfrica Ayanda  
Inglés – Reino Unido Amy (Neural)

Brian (Neural)

  Amy (Estándar) Brian (Estándar)
  Emma (Neural) Arthur (Neural)
  Emma (Estándar)  
Inglés – Estados Unidos Ruth (formato largo) Gregory (formato largo)
  Ruth (Neuronal) Gregory (Neuronal)
  Danielle (formato largo) Stephen (Neuronal)
  Joanna (Neural) Matthew (Neural)
  Joanna (Estándar) Matthew (Estándar)
  Danielle (Neuronal) Justin (Neural)
  Salli (Neural) Justin (Estándar)
  Salli (Estándar) Joey (Neural)
  Kendra (Neural) Joey (Estándar)
  Kendra (Estándar)  
  Kimberly (Neural)  
  Kimberly (Estándar)  
  Ivy (Neural)  
  Ivy (Estándar)  
Inglés - Gales   Geraint

Inglés - Australia

Olivia (Neural) Russell
  Nicole  
Finés Suvi (Neuronal)  
Francés - Bélgica Isabelle (Neural)  
Francés - Canadá Gabrielle (Neural) Liam (Neural)
  Chantal  
Francés - Francia Léa (Neuronal) Mathieu
  Léa (Estándar) Rémi
  Céline  
Alemán - Austria Hannah (Neural)  
Alemán - Alemania Vicki (Neural) Daniel (Neural)
  Vicki (Estándar) Hans
  Marlene  
Hindi - India Kajal (neuronal)  
  Aditi  
Islandés Dóra Karl
Italiano Bianca (Neuronal) Adriano
  Bianca (Estándar) Giorgio
  Carla  
Japonés Kazuha (Neural) Takumi (Neuronal)
  Tomoko (Neural)
Takumi (Estándar)
  Mizuki  
Coreano Seoyeon (Neuronal)  
  Seoyeon (estándar)  
Mandarín Zhiyu (neuronal)  
  Zhiyu (estándar)  
Noruego Ida (Neuronal)  
  Liv  
Polaco Ola (Neuronal) Jacek
  Ewa Jan
  Maja  
Portugués - Brasil Vitória (Neuronal) Ricardo
  Vitória (Estándar) Thiago 
  Camila (Neural)  
  Camila (Estándar)  
Portugués - Portugal Inês (Neuronal) Cristiano
  Inês (Estándar)  
Rumano Carmen  
Ruso Tatyana Maxim
Español - México Mia (Neural) Andrés
  Mia (Estándar)  
Español  - España Lucia (Neuronal) Sergio
  Lucia (Estándar) Enrique
  Conchita  
Español - Estados Unidos Lupe (Neural) Pedro (Neural)
  Lupe (Estándar) Miguel
  Penélope  
Sueco Astrid  
  Elin (Neuronal)
 
Turco Filiz  
  Burcu (neuronal)  
Galés Gwyneth  

Sincronización de voz para una experiencia visual mejorada

Amazon Polly facilita la solicitud de un flujo adicional de metadatos que proporcione información sobre cuándo se pronuncian frases, palabras y sonidos concretos. Al usar este flujo de metadatos junto con el flujo de audio de voz sintetizada, ahora puede crear sus aplicaciones con una experiencia visual mejorada, como animación facial sincronizada con voz o resaltado de palabras estilo karaoke.

Consulte la documentación para obtener más información sobre cómo utilizar las marcas de voz. 

Optimice su audio de streaming

Con Amazon Polly, puede transmitir cualquier tipo de información a los usuarios mediante su aplicación en casi tiempo real. Puede elegir entre varias tasas de muestreo para optimizar el ancho de banda y la calidad de audio de su aplicación. Amazon Polly soporta MP3, Vorbis y formatos de transmisión de audio PCM sin procesar.

Frecuencia de muestreo Tamaño de MP3   Tamaño OGG
Tamaño PCM
24,00 kHz Escuchar 19,31 KB 18,11 KB N/D
22,05 kHz Escuchar
19,33 KB 17,62 KB N/D
16,05 kHz Escuchar 16,22 KB 15,48 KB

100,68 KB

8,00 kHz Escuchar 13,26 KB 9,72 KB 50,34 KB

Ajuste el estilo de habla, la frecuencia, el tono y el volumen de la voz

Amazon Polly es compatible con el lenguaje de etiquetado de síntesis del habla (SSML), un lenguaje de etiquetado basado en XML estándar del W3C para aplicaciones de síntesis del habla, y admite etiquetas SSML comunes para frases, énfasis y entonación. Las etiquetas personalizadas de Amazon SSML ofrecen opciones únicas, como la capacidad de hacer que ciertas voces hablen con un estilo de habla de presentador de noticias. Esta flexibilidad le permite crear habla realista que atraerá y retendrá la atención de su público.

Para obtener más información, consulte la documentación de Amazon Polly sobre las etiquetas SSML.

Muestra SSML
Así hablo normalmente. (ninguno)
También puedo hablar en un estilo de presentador de noticias, como si estuviera leyendo un artículo de noticias o dando un resumen informativo rápido. <speak><amazon:domain name="news">También puedo hablar en un estilo de presentador de noticias, como si estuviera leyendo un artículo de noticias o dando un informe rápido.</amazon:domain></speak>
Puedo hablar con un tono agudo o puedo hablar con un tono grave. <speak>Puedo hablar con un <prosody pitch="high">tono agudo</prosody>, o puedo hablar con un<prosody pitch="low">tono grave</prosody>.</speak>
Puedo hablar muy lento o puedo hablar muy rápido. <speak>Puedo hablar <prosody rate="x-slow">muy lento</prosody>, o puedo hablar <prosody rate="x-fast">muy rápido</prosody>.</speak>
También puedo hablar muy alto o puedo hablar muy bajo. <speak>También puedo hablar <prosody volume="x-loud">muy alto</prosody> o puedo hablar <prosody volume="x-soft">muy bajo</prosody>.</speak>
Puedo susurrar. <speak>Le voy a contar un secreto susurrando.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">No soy humano.</prosody></prosody></amazon:effect>¿A que es increíble?</speak>

Estilo de habla presentador de notificas

Amazon Polly se puede utilizar para sintetizar el habla como si fuera hablada por un presentador de televisión o radio. Esta puede ser una excelente manera de leer artículos de noticias o de ofrecer rápidos resúmenes informativos. El estilo de presentador de noticias está disponible actualmente para las voces de Matthew y Joanna en inglés estadounidense (en-US), la de Amy en inglés británico (en-GB) y la de Lupe en español estadounidense (es-US) gracias a al text-to-speech Neural. Escuche una muestra de audio en inglés estadounidense, inglés británico o español estadounidense.

Ajuste la duración máxima del habla

Amazon Polly le permite ajustar automáticamente la velocidad del habla en función del tiempo máximo asignado que defina con una característica llamada prosodia basada en tiempo. Esta función es útil en muchos casos de uso, especialmente en la localización.

Por ejemplo, supongamos que tiene habla en inglés de EE.UU. integrada en un video de formación técnica y desea localizar este video al alemán. Imaginemos que traduce el texto con Amazon Translate y lo reproduce oralmente con Polly. Es fundamental que el habla localizada al alemán se transmita en los marcos del video correspondientes, por lo que el habla en alemán no puede ser más larga que el habla en inglés de EE.UU. Puede usar esta característica para facilitar el proceso de doblaje.

Compatibilidad con plataformas y lenguajes de programación

Amazon Polly admite todos los lenguajes de programación incluidos en el AWS SDK (Java, Node.js, .NET, PHP, Python, Ruby, Go y C++) y el SDK para móviles de AWS (iOS/Android). Polly también soporta una API de HTTP para que pueda implementar su propia capa de acceso.

Síntesis del habla mediante la API, la consola o la línea de comandos

Puede accederse a Amazon Polly a través del API de Polly (y varios SDK de lenguaje específico), la consola de administración de AWS y la interfaz de línea de comandos (CLI) de AWS. Dispone de control absoluto de todas las capacidades de Amazon Polly, tanto si utiliza el servicio a través de la consola como de la API o la CLI.

Lexicones personalizados

Con los lexicones personalizados, o vocabularios, de Amazon Polly puede modificar la pronunciación de determinadas palabras, como nombres de compañías, acrónimos, palabras extranjeras y neologismos (p. ej., “ROTFL”, “C’est la vie” en una voz no francesa). Para personalizar estas pronunciaciones, debe cargar un archivo XML con entradas léxicas. Por ejemplo, puede personalizar la pronunciación de Nguyen proporcionando un fonema con este código XML:

<lexeme>
            <grapheme>Nguyen</grapheme>
            <grapheme>nguyen</grapheme>
            <grapheme>NGUYEN</grapheme>
            <phoneme>"nu.jEn'</phoneme>
</lexeme>

Brand Voice

Brand Voice es una interacción personalizada en la que trabaja con el equipo Amazon Polly para desarrollar voces de texto a voz neuronal (NTTS) para el uso exclusivo de su empresa. Brand Voice le permite diferenciar sus productos y aplicaciones con una identidad vocal única en una amplia variedad de casos prácticos, incluidas las integraciones de Amazon Connect y Alexa Skills. Trabajamos con usted durante todo el proceso para identificar la persona, identificar un actor o actriz y grabar su voz, y por último crear y entrenar un modelo para producir la voz. A continuación, la voz se pone a disposición en el ID de su cuenta de AWS.

Escuche la voz de marca del Banco Nacional de Australia »

Escuche la voz de marca del Banco Nacional de Nueva Zelanda »

Si está interesado en crear una voz de marca mediante Polly, contacte con su administrador de cuentas de AWS o contacte con nosotros para obtener más información.

Integraciones del centro de contacto

Amazon Connect

Amazon Polly se integra de forma nativa con Amazon Connect, la solución de centro de contacto basada en la nube de AWS que se utiliza para configurar y administrar un centro de contacto de clientes y brindar una interacción confiable con el cliente a cualquier escala. Para obtener más información sobre cómo agregar mensajes de texto a voz a su sistema de respuesta de voz interactiva conversacional, consulte cómo utilizar las voces de Polly en Amazon Connect.

Genesys Cloud CX

Genesys Cloud CX es una solución de centro de contacto en la nube que unifica las experiencias de los clientes y agentes a través de múltiples canales, como teléfono, mensajes de texto y chat. Puede implementar sus bots de voz con cualquiera de las voces de Polly existentes. Consulte la documentación de Genesys Cloud para obtener más información.

SDK de Amazon Chime

El SDK de Amazon Chime es un conjunto de componentes de comunicaciones en tiempo real que los desarrolladores pueden utilizar para agregar con rapidez llamadas de audio, videollamadas y funciones de pantalla compartida a sus propias aplicaciones de telefonía, web o móviles. El SDK de Amazon Chime admite la integración nativa con Amazon Polly, de modo que facilita a los creadores la creación de aplicaciones que conviertan texto y datos numéricos en habla cotidiana y la reproducción automática del resultado para la persona que llama.

Inteligencia de centro de contacto (CCI) de AWS

Un buen número de socios de la CCI de AWS utilizan Amazon Polly, de modo que puede crear de manera integral agentes virtuales de servicio al cliente de autoservicio, bots de información o bots de aplicaciones. Entre los socios de Amazon Polly se encuentran Genesys, Vonage y Accenture. Para obtener más información sobre los socios, visite CCI de AWS y la página de socios de CCI de AWS.

Más información sobre los precios de Amazon Polly

Visite la página de precios
¿Está listo para comenzar?
Regístrese
¿Tiene más preguntas?
Contáctenos