Amazon Transcribe

Reconocimiento de voz automático

Amazon Transcribe es un servicio de reconocimiento de voz automático (ASR) que permite a los desarrolladores añadir funcionalidad de voz a texto a sus aplicaciones. La API de Amazon Transcribe le permite analizar archivos de audio almacenados en Amazon S3 y recibir un archivo de texto del discurso transcrito.

Amazon Transcribe puede utilizarse en numerosas aplicaciones habituales, incluidas la transcripción de llamadas al servicio de atención al cliente y la generación de subtítulos en contenido de audio y vídeo. El servicio puede transcribir archivos de audio almacenados en formatos habituales, como WAV y MP3, con marcas temporales en cada palabra, para que pueda ubicar fácilmente el audio en la fuente original buscando el texto. Amazon Transcribe aprende y mejora continuamente para seguir el ritmo de evolución del idioma.

AWS re:Invent 2017 presenta Amazon Transcribe

Características principales

Transcripciones de lectura sencilla

La mayoría de los sistemas de reconocimiento de voz automático genera una cadena de texto sin puntuación. Amazon Transcribe utiliza aprendizaje profundo para añadir formato y signos de puntuación de forma automática, de modo que el resultado es un texto más legible y que se puede utilizar para cualquier edición posterior.

Compatibilidad con sonido de telefonía

El sonido grabado de las conversaciones telefónicas suele ser de baja calidad. Amazon Transcribe se ha diseñado de forma específica para proporcionar alta precisión a la hora de trabajar con sonido de telefonía de calidad, con el fin de ofrecer casos de uso como la transcripción de llamadas al servicio de atención al cliente.  

Varios idiomas

Amazon Transcribe es capaz de transcribir automáticamente textos orales en español y en inglés de Estados Unidos. Próximamente se ofrecerá compatibilidad con más idiomas.    

 

API de uso sencillo

La API de Amazon Transcribe facilita la conversión de voz a texto escrito. No hace falta ningún tipo de programación compleja. Solo tiene que realizar una llamada al API con unas líneas de código, tras lo cual Transcribe le devolverá el texto a partir de su archivo de sonido almacenado en Amazon S3.

Compatibilidad con la función de vocabulario personalizable (próximamente)

Amazon Transcribe le permite ampliar y personalizar su vocabulario para reconocimiento de voz. Puede añadir palabras nuevas (junto con sus pronunciaciones) al vocabulario básico y generar transcripciones de gran precisión específicas de su caso de uso, incluso si el enunciado incluye terminología especializada y jerga, o nombres de productos exclusivos. Con esta función puede ahorrar tiempo y ediciones adicionales al eliminar la necesidad de realizar correcciones más adelante.

Generación de marcas temporales

Amazon Transcribe devuelve una marca temporal por cada palabra, lo que le permite localizar fácilmente el sonido en la grabación original buscando el texto.

 

Reconocimiento de varios oradores (próximamente)

Amazon Transcribe es capaz de detectar cuándo hay un cambio de orador y atribuye a cada uno su transcripción adecuadamente. De esta manera, se puede reducir de manera significativa la cantidad de trabajo precisa para transcribir sonido con varios oradores, como ocurre en llamadas telefónicas, entrevistas o programas de televisión.

Casos de uso

Amazon Transcribe puede ofrecer transcripciones de un amplio rango de casos de uso, como el servicio de atención al cliente, la subtitulación, las búsquedas y la conformidad.

Mejora del servicio de atención al cliente

Al convertir entradas de sonido en texto escrito, Amazon Transcribe le permite crear aplicaciones de análisis de textos que pueden realizar búsquedas y análisis de entradas de voz. Los centros de contacto de clientes pueden utilizar Amazon Transcribe para generar transcripciones de interacciones de voz y escarbar los datos en busca de información mediante otros servicios de AWS (como Amazon Comprehend) para extraer significados e intenciones de las conversaciones.

Flujos de trabajo de subtitulación

Amazon Transcribe puede ayudar a los distribuidores de medios y generación de contenidos a mejorar el alcance y el acceso generando automáticamente subtítulos con marcas temporales que aparezcan junto con el contenido del vídeo.

Catálogo de archivos de sonido

Este servicio le permite transcribir recursos de sonido y vídeo y convertirlos en archivos con capacidad completa de búsqueda para la monitorización de conformidad y la administración de riesgos. Los clientes pueden usar Amazon Transcribe para convertir el sonido en texto escrito, y utilizar Amazon ElasticSearch para indexar y realizar búsquedas de texto en su biblioteca de sonido y vídeo.

Referencias de clientes

RingDNA es un motor de aceleración de ventas empresariales y una plataforma comunicaciones de voz. Los equipos de ventas internas utilizan RingDNA para aumentar significativamente la productividad, interactuar en conversaciones de ventas más inteligentes, obtener conocimientos predictivos y formar a representantes para que consigan sus objetivos más rápido que nunca. 

“RingDNA es una plataforma de comunicaciones integrales para los equipos de ventas. Cientos de organizaciones empresariales utilizan RingDNA para aumentar significativamente la productividad, interactuar en conversaciones de ventas más inteligentes, obtener conocimientos predictivos, mejorar su tasa de impresiones y formar a representantes para conseguir sus objetivos más rápido que nunca. Un componente fundamental de la IA de conversación de RingDNA requiere lo mejor de las conversiones de texto oral a texto escrito para ofrecer transcripciones de cada llamada telefónica. En RingDNA estamos encantados con Amazon Transcribe y sus resultados de reconocimiento de voz de gran calidad a escala, ya que nos permiten transcribir cada llamada de forma más eficaz”.

Howard Brown, director ejecutivo y fundador de RingDNA

Isentia, con sede en Sídney (Australia), es uno de los principales proveedores de inteligencia de medios de la región Asia-Pacífico. La empresa cuenta con 18 oficinas en toda la región y ofrece a servicio a más de 5 000 clientes en todo el mundo, entre los que se incluyen 84 de las 100 marcas más importantes a nivel mundial. Los productos de Isentia ayudan a los clientes a tomar decisiones de comunicación y negocios con más puntualidad y conocimiento.

“En Isentia permitimos a los clientes analizar y monitorizar la cobertura de medios para sus marcas. Creamos más de 13 000 resúmenes al día de contenido de radio y televisión. Con Amazon Transcribe podemos transcribir cualquier contenido de sonido o vídeo que monitorizamos, y analizamos los datos de los textos con Amazon Clair. Gracias a características como las marcas temporales o la puntuación nos resulta más fácil buscar a través de los datos, así como explorar en profundidad y presentar información clave para que la consulten nuestros clientes”.

Andrea Walsh, directora de sistemas de información de Isentia

Más información sobre los precios de Amazon Transcribe

Visite la página de precios
¿Listo para comenzar?
Inscríbase para solicitar la vista previa
¿Tiene más preguntas?
Contacte con nosotros