Saltar al contenido principal

¿Qué es el software de conversión de texto a voz?

Desde páginas web leídas en voz alta hasta solicitudes de datos de usuario, la voz se está convirtiendo rápidamente en la norma como interfaz de usuario moderna. Los clientes esperan cada vez más capacidades de voz en cada aplicación con la que interactúan. Además, los casos de uso de conversión de texto a voz en aplicaciones de atención médica, ventas, creación de contenido, servicio al cliente y otras aplicaciones pueden acelerar la automatización y, al mismo tiempo, mejorar la experiencia del cliente. Esta guía explora las características y capacidades de conversión de texto a voz y cómo empezar a usarlas.

El software de conversión de texto a voz o de texto a voz (TTS) produce una “voz” de audio al sintetizar la voz a partir del texto. El software funciona con un motor de conversión de texto a voz entrenado en un gran volumen de grabaciones de voz humana. Convierte las palabras escritas a su forma hablada mediante el análisis de las formas de onda del sonido en los datos de voz.

Las voces forzadas que suenan a robots son el resultado de tecnologías de voz anticuadas. Los modernos motores de conversión de texto a voz basados en la IA generativa producen resultados que son casi indistinguibles de la voz humana. La voz generada puede incluir pausas naturales, varios acentos, diferentes velocidades y entonaciones que reflejan las emociones humanas.

Tipos de software de conversión de texto a voz

El tipo de herramienta de TTS que elija depende de su caso de uso. Para los desarrolladores, un paquete integrador, personalizable y todo en uno es la mejor opción para el desarrollo de múltiples aplicaciones y entornos.

Los desarrolladores pueden elegir entre software TTS comercial y de código abierto con implementaciones autogestionadas o un servicio de nube gestionado totalmente integrado como Amazon Polly. Incluye una característica de primera clase que permite alas aplicaciones existentes hablar y crea la oportunidad de nuevas categorías de productos con funciones de habla, desde aplicaciones móviles y automóviles, hasta dispositivos y electrodomésticos.

Amazon Polly incluye cuatro motores de voz basados en diferentes arquitecturas de modelos de IA, adecuados para diversos casos de uso. Para usar una voz de Amazon Polly, solo tiene que seleccionar el motor, la operación de síntesis de voz y el formato del archivo de salida a través de la API en su código. A continuación, proporcione el texto de entrada para que el motor lo sintetice. Amazon Polly generará el archivo de salida de voz en el formato solicitado. Estos motores también se pueden entrenar más para cumplir con los requisitos específicos de voz o marca.

¿Cuáles son las características que se deben buscar en el software de conversión de texto a voz?

Amazon Polly incluye las siguientes características de conversión de texto a voz esenciales para el desarrollo moderno de la voz.

Gama de voces

Tener la opción de seleccionar diferentes idiomas, regiones, géneros y voces dentro de una región proporciona un conjunto de productos más completo para el desarrollo. Amazon Polly admite docenas de idiomas, junto con sus variaciones y acentos basados en países en formatos masculinos y femeninos.

Integración basada en API

Compruebe que su software TTS tenga una API completamente funcional y esté disponible en varios lenguajes de programación, para obtener la gama más amplia de integraciones en todos los proyectos. Amazon Polly proporciona la API de Amazon Polly y varios SDK específicos para cada idioma. También se puede acceder a ella desde la consola de administración de AWS y la interfaz de la línea de comandos (CLI) de AWS. Usted tiene un control total sobre todas las funciones de Amazon Polly, independientemente de cómo la utilice.

Control de voz preciso

El lenguaje de marcado de síntesis de voz (SSML) es un lenguaje de marcado basado en XML que le permite proporcionar más información sobre cómo debe sonar su discurso. Por ejemplo, puede incluir pausas, interpretaciones (por ejemplo, fechas, acrónimos), tono, velocidad, volumen, énfasis, atenuación y otros elementos de audio para personalizar la voz generada. SSML le permite controlar completamente las salidas de voz y transferir la personalización a otros sistemas.  

Amazon Polly admite etiquetas de Amazon SSML tanto comunes como personalizadas, como la capacidad de hacer que una voz suene como la de un presentador de noticias. Esta flexibilidad le ayuda a crear un discurso realista que capte y mantenga la atención de la audiencia.

Enlaces de metadatos para animación sincronizada

Algunas aplicaciones, como los juegos y los medios multimedia, requieren animaciones con personajes que sigan el audio, incluidos los movimientos de la boca o el seguimiento de palabras al estilo de un karaoke. Los vídeos de formación multilingües también se beneficiarían de la sincronización de tiempos en varios idiomas, de modo que el audio se alinee con el vídeo al mismo tiempo en todos los idiomas.

Para este tipo de aplicaciones, los desarrolladores necesitan metadatos para marcar qué elementos de voz aparecen en un momento dado en un formato con fecha y hora. Amazon Polly le permite solicitar dichos metadatos o marcas de voz adicionales junto con su archivo de voz. Las marcas de voz proporcionan información como la marca de tiempo del archivo de audio, los visemas (las posiciones de la cara y la boca al pronunciar una palabra) y otros detalles que vinculan el texto escrito con la salida de voz.

Personalización

Desea que su software de conversión de texto a voz sea totalmente personalizable para obtener la máxima flexibilidad. Por ejemplo, la salida de audio debe poder personalizarse para diferentes formatos y configuraciones, incluidos el tipo de archivo (por ejemplo), el tamaño del archivo y la calidad de los datos. El software debería poder manejar el vocabulario personalizado que no esté incluido en sus datos de entrenamiento.

Amazon Polly admite la personalización de texto a voz en todas las etapas.

Vocabulario

Puede crear un diccionario personalizado con pronunciaciones personalizadas para nombres de empresas, acrónimos, palabras extranjeras y neologismos. Puede solicitar salidas en varios formatos de voz, como MP3 y WAV.

Formato de salida

Amazon Polly también admite audio de formato largo, como la lectura de documentos, con una voz que suene natural. Puede generar transmisiones de audio continuas para conexiones de menor ancho de banda o baja latencia en casos de uso en tiempo real.

Voz

También ofrecemos Brand Voice, una interacción personalizada en la que trabaja con el equipo de Amazon Polly para crear una voz para el uso exclusivo de su empresa. En lugar de sonar como otras aplicaciones, puede crear una marca única basada en la voz que le ayude a destacar.

¿Cómo puede empezar a usar el software de conversión de texto a voz?

Comenzar a usar el software de conversión de texto a voz de AWS es fácil. En esta guía, veremos una demostración rápida de cómo usar Amazon Polly en la consola.

En primer lugar, inicie sesión en la consola de administración de AWS y abra la consola de Amazon Polly. Haga clic en Probar Polly para empezar. Aparecerá un cuadro de diálogo de conversión de texto a voz.

Paso 1: Elegir un motor

En el cuadro de diálogo de conversión de texto a voz, puede seleccionar el motor de voz que desea usar. Amazon Polly tiene actualmente cuatro motores de voz diferentes para elegir.

  • El motor estándar utiliza el método de síntesis concatenativa como generador de voz.
  • El motor neuronal utiliza una red neuronal y un método de codificación de voz para producir una voz con un sonido más natural.
  • El motor generativo utiliza un modelo de mil millones de parámetros que se basa en una gran variedad de datos de voz para lograr una voz con un sonido aún más natural.
  • El motor de formato largo es otro motor de conversión de texto a voz basado en IA generativa, desarrollado para discursos largos de estilo narrativo.

No todos los motores están disponibles en todas las regiones de AWS.

Paso 2: Elegir un idioma

Una vez que haya seleccionado un motor de voz, elija el idioma que desea generar y una voz masculina o femenina en los menús desplegables.

Cada motor de voz admite una gama diferente de idiomas y voces de IA. Por ejemplo, si selecciona el motor neuronal, solo estarán disponibles los idiomas y las voces compatibles con la conversión neuronal de texto a voz (NTTS) y todas las voces estándar y de formato largo estarán deshabilitadas.

Paso 3: Convertir texto en voz

En el cuadro Entrada de texto, cambie el texto predeterminado por su propia entrada de texto escrito. Puede elegir el botón Escuchar para escuchar la salida leída en voz alta, el botón Descargar para descargar el archivo MP3 o el botón Guardar en S3 para guardar las palabras pronunciadas en Amazon Simple Storage Service.

Acceso a Amazon Polly a través de la API

Puede acceder a Amazon Polly a través de la consola, como se indicó anteriormente, o mediante su API en el código de la aplicación. La API de Amazon Polly le permite hacer muchas cosas, desde traducir en tiempo real hasta generar subtítulos y dar vida a personajes de videojuegos u otros personajes de animación. Pruebe algunos de los ejemplos de GitHub para ver ejemplos de cómo usar la API de Amazon Polly en el código.

¿Cómo puede AWS cumplir con sus necesidades de software de conversión de texto a voz?

La conversión de texto a voz le permite crear audio basado en voz a través de texto en lugar de voz humana. Inicialmente se usó como tecnología de asistencia para personas con discapacidades visuales, pero ahora se está convirtiendo en un requisito en muchas aplicaciones e interacciones con los clientes, desde extensiones de navegador hasta centros de llamadas y aplicaciones empresariales. Con un servicio gestionado como Amazon Polly, los desarrolladores pueden integrar fácilmente un motor de voz moderno y realista en las aplicaciones mediante llamadas a la API de conversión de texto a voz. Los precios de Amazon Polly se basan en el motor y en la cantidad de caracteres procesados, e incluyen una capa gratuita para uso personal.

El audio hablado de Amazon Polly es solo uno de los servicios de IA generativa que puede aprovechar en el desarrollo de aplicaciones. Eche un vistazo a la gama de soluciones de IA de AWS que le ayudarán a crear y escalar aplicaciones de forma más rápida y sólida.