Amazon Polly es un servicio que transforma texto en habla realista. Amazon Polly incluye decenas de voces realistas y es compatible con varios idiomas, de manera que puede seleccionar la voz ideal y distribuir sus aplicaciones con voz en numerosos países. Con Amazon Polly, simplemente envía el texto que desea convertir en habla a la API de Amazon Polly, y Amazon Polly le envía al instante la transmisión de audio a su aplicación, para que pueda comenzar a transmitirla directamente o almacenarla en un formato de archivo de audio estándar, como MP3.

Pruebe Amazon Polly

Inscríbase para obtener una cuenta gratuita
O inicie sesión en la consola

La capa gratuita de Amazon Polly incluye 5 millones de caracteres al mes, durante los primeros 12 meses, a partir de la primera solicitud de habla.

Consulte los detalles de la capa gratuita de AWS »

Amazon Polly proporciona una API que le permite integrar la síntesis del habla en su aplicación de manera rápida. Simplemente envía el texto que desea convertir en habla a la API de Amazon Polly, y Amazon Polly le envía al instante la transmisión de audio a su aplicación, para que pueda comenzar a transmitirla directamente o almacenarla en un formato de archivo de audio estándar, como MP3.

Frecuencia de muestreo Código de muestra
"Hi. My name is Joanna." from boto3 import client
polly = client("polly", region_name="us-east-1")
response = polly.synthesize_speech(
        Text="Hi. My name is Joanna.",
        OutputFormat="mp3",
        VoiceId="Joanna")

Amazon Polly incluye decenas de voces realistas y es compatible con varios idiomas, de manera que puede seleccionar la voz ideal y distribuir sus aplicaciones con voz en numerosos países.

Idioma Femenina
Masculina
Inglés australiano Nicole Russell
Portugués de Brasil Vitória Ricardo
Francés canadiense Chantal  
Danés Naja Mads
Neerlandés Lotte Ruben
Francés Céline Mathieu
Alemán Vicki Hans
  Marlene  
Islandés Dóra Karl
Inglés de la India Raveena  
  Aditi  
Italiano Carla Giorgio
Japonés Mizuki Takumi
Coreano Seoyeon  
Noruego Liv  
Polaco Ewa Jacek
  Maja Jan
Portugués de Portugal Inês Cristiano
Rumano Carmen  
Ruso Tatyana Maxim
Español castellano Conchita Enrique
Sueco Astrid  
Turco Filiz  
Inglés británico Amy Brian
  Emma  
Inglés estadounidense Joanna Matthew
  Salli Justin
  Kendra Joey
  Kimberly  
  Ivy  
Español estadounidense Penélope Miguel
Galés Gwyneth  
Inglés de Gales   Geraint

Amazon Polly facilita la solicitud de un flujo adicional de metadatos que proporcione información sobre cuándo se pronuncian frases, palabras y sonidos concretos. Al usar este flujo de metadatos junto con el flujo de audio de voz sintetizada, ahora puede crear sus aplicaciones con una experiencia visual mejorada, como animación facial sincronizada con voz o resaltado de palabras estilo karaoke.

Visite la documentación para obtener más información sobre cómo utilizar las marcas de voz.

Con Amazon Polly, puede transmitir cualquier tipo de información a los usuarios mediante su aplicación en casi tiempo real. También puede elegir entre varias frecuencias de muestreo para optimizar el ancho de banda y la calidad del audio de su aplicación. Amazon Polly es compatible con los formatos de transmisión de audio MP3, Vorbis y PCM sin procesar.

Frecuencia de muestreo Tamaño MP3 Tamaño OGG
Tamaño PCM
22,05 kHz Escuche
19,02 KB 19,14 KB N/D
16,05 kHz Escuche 16,04 KB
16,35 KB
99,53 KB
8,00 kHz Escuche 13,26 KB 10,40 KB 49,76 KB

Amazon Polly es compatible con el lenguaje de etiquetado de síntesis del habla (SSML), un lenguaje de etiquetado basado en XML estándar para aplicaciones de síntesis del habla, y admite etiquetas SSML comunes para frases, énfasis y entonación. Esta flexibilidad le permite crear habla realista que atraerá y retendrá la atención de su público.

Si desea obtener más información, visite la documentación de Amazon Polly en las etiquetas SSML.

Muestra SSML
Así hablo normalmente. (ninguno)
Puedo hablar con un tono agudo, o puedo hablar con un tono grave. Puedo hablar con un tono agudo , o puedo hablar con un tono grave .
Puedo hablar muy lento, o puedo hablar muy rápido. Puedo hablar muy lento , o puedo hablar muy rápido .
También puedo hablar muy alto, o puedo hablar muy bajo. También puedo hablar muy alto , o puedo hablar muy bajo .
Puedo susurrar. Tengo un secreto que contarte, te lo susurraré. ' No soy humano. ¿Puedes creerlo?

Amazon Polly es compatible con todos los lenguajes de programación incluidos en el SDK de AWS (Java, Node.js, .NET, PHP, Python, Ruby, Go y C++) y el SDK para móviles de AWS (iOS/Android). Polly también admite una API HTTP para que pueda implementar su propia capa de acceso.

Puede accederse a Amazon Polly a través del API de Polly (y varios SDK de lenguaje específico), la consola de administración de AWS y la interfaz de línea de comandos (CLI) de AWS. Dispone de control absoluto de todas las capacidades de Amazon Polly, tanto si utiliza el servicio a través de la consola como de la API o la CLI.

Con los lexicones personalizados, o vocabularios, de Amazon Polly puede modificar la pronunciación de determinadas palabras, como nombres de compañías, acrónimos, palabras extranjeras y neologismos (p. ej., “ROTFL”, “C’est la vie” en una voz no francesa). Para personalizar estas pronunciaciones, debe cargar un archivo XML con entradas léxicas. Por ejemplo, puede personalizar la pronunciación de Nguyen proporcionando un fonema con este código XML:


            Nguyen
            nguyen
            NGUYEN
            "nu.jEn'