Publicado en: Nov 26, 2023

Hoy nos complace anunciar el sistema de última generación de Amazon Transcribe, impulsado por un modelo fundacional de voz basado en miles de millones de parámetros, que amplía el reconocimiento automático de voz (ASR) a más de 100 idiomas. Amazon Transcribe es un servicio ASR completamente administrado que permite a los clientes agregar funcionalidades de voz a texto con facilidad a sus aplicaciones. Nuestro modelo fundacional del habla se entrena utilizando los mejores algoritmos autosupervisados de su clase para aprender los patrones universales inherentes del habla humana en todos los idiomas y acentos.

Con la llegada de la IA generativa, miles de empresas utilizan Amazon Transcribe para obtener información valiosa de su contenido de audio, así como para aumentar la accesibilidad y la visibilidad de su contenido de audio y video. Por ejemplo, los centros de contacto transcriben y analizan las llamadas de los clientes para identificar información y, posteriormente, mejorar la experiencia del cliente y la productividad de los agentes. Los productores de contenido y los distribuidores de medios utilizan Amazon Transcribe para generar subtítulos automáticamente y así mejorar la accesibilidad del contenido.

Todos los clientes nuevos y actuales que utilizan Amazon Transcribe en modo por lotes pueden obtener mejoras de precisión en más de 100 idiomas sin necesidad de cambiar el punto de conexión de la API ni los parámetros de entrada. Estos nuevos idiomas están disponibles en las siguientes regiones de AWS: Este de EE. UU. (Ohio), Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Norte de California), Oeste de EE. UU. (Oregón), Asia-Pacífico (Hong Kong), Asia-Pacífico (Bombay), Asia-Pacífico (Seúl), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio), Canadá (centro), Europa (Fráncfort), Europa (Irlanda), Europa (Londres), Europa (París), Europa (Estocolmo), Oriente Medio (Baréin) y América del Sur (São Paulo). Para comenzar, vaya a la consola de servicio, cree una transcripción de audio con un tutorial de 10 minutos o, para obtener más información, consulte la publicación del blog y la documentación.