¿Qué es la transcripción de archivos de audio?
¿Qué es la transcripción de archivos de audio?
Las organizaciones necesitan transcripciones de audio a escala para varios casos de uso, que van desde notas de reuniones organizadas hasta aplicaciones de atención médica. Las tecnologías modernas de IA pueden transcribir audio a texto, transformando varios acentos y conversaciones entre varios oradores en documentos precisos y formateados. Esta guía explora los métodos para transcribir audio a texto para las necesidades de empresas y pequeñas empresas.
La comunicación basada en el habla es fundamental para que los humanos se entiendan completamente unos a otros. La voz es un método rápido y puntual para comunicar ideas, información, instrucciones y emociones. La grabación y transcripción de las comunicaciones de voz mediante convertidores de audio a texto se ha vuelto esencial para la recuperación, la precisión y el trabajo posterior. Al transcribir audio a texto, la información importante se puede retener, buscar, analizar y mezclar para obtener información más rápida y una integración instantánea en los procesos empresariales.
En el pasado, una persona escuchaba una sola grabación de audio y, simultáneamente, escribía su contenido, convirtiendo las palabras habladas al detenerse y comenzar a producir una transcripción precisa. Los bufetes de abogados, los médicos, los investigadores y otros despachos profesionales contaban con mecanógrafos para realizar esta función manual al transcribir audio a texto a partir de notas de voz.
Ahora, las máquinas pueden transcribir audio al instante mediante un conversor de audio a texto. En lugar del esfuerzo humano en el trabajo de transcripción, la tecnología de conversión de voz a texto (STT) convierte los archivos de audio en archivos de texto escrito. Este archivo de texto escrito puede leerse tal cual, resumirse con un transcriptor de IA, activarse automáticamente en otros sistemas de software, analizarse de forma aislada o como parte de un corpus más amplio, y mucho más. Las aplicaciones de los convertidores de audio a texto son ilimitadas.
¿Qué son las tecnologías de transcripción de archivos de audio?
Los archivos de audio pueden contener varios hablantes, acentos y palabras específicas de un campo. Las grabaciones de audio también pueden variar en cuanto a la calidad del sonido. La conversión de palabras habladas en texto requiere la comprensión del lenguaje vocal y el conocimiento de la sintaxis y la gramática del lenguaje para producir un resultado legible.
Los programas de conversión de audio a texto más antiguos cometían errores y producían transcripciones difíciles de leer, sin la estructura adecuada, y errores jerárquicos, verbales y gramaticales. El software moderno de conversión de audio a texto funciona mucho mejor, ya que convierte el audio en texto que coincide estrechamente con la palabra hablada, con transcripciones precisas que presentan una estructura escrita y una gramática adecuadas.
Amazon Transcribe es un servicio completamente administrado que convierte la voz en texto mediante la tecnología de reconocimiento automático de voz (ASR). Puede manejar varias características del habla, incluidas las variaciones en la velocidad, el tono y el volumen del habla. Puede transcribir en más de 100 idiomas y se conecta a los flujos de trabajo de los desarrolladores y a la infraestructura de AWS para los requisitos empresariales de conversión de audio a texto.
¿Cómo empezar con la transcripción de audio?
Existen dos métodos principales para transcribir audio a texto, basados en el tipo de archivo de audio o vídeo. La transcripción por lotes se usa para transcribir archivos de audio pregrabados, y la transcripción de streaming se usa para transcribir transmisiones multimedia en vivo.
Amazon Transcribe admite audio de uno y dos canales para los tipos de transcripción de audio y vídeo por lotes y de streaming.
Tanto la transcripción de audio a texto por lotes como la de streaming se generan en formato de archivo JSON. Los campos proporcionados en la salida dependen de las características que incluya en la solicitud de transcripción al convertir el audio. Como mínimo, su transcripción contiene cada palabra dada, su hora de inicio, hora de finalización, tipo, coincidencia del filtro de vocabulario y puntuación de confianza para su verificabilidad. Otros campos incluyen etiquetas de altavoces, palabras alternativas, canales y más.
Transcripciones de streaming
La transcripción de streaming se utiliza para transcribir transmisiones de audio en tiempo real. El servicio de transcripción en streaming Amazon Transcribe admite audio little-endian de 16 bits firmado en FLAC y PCM (no WAV) como formatos preferidos, junto con Ogg Opus. Establezca una frecuencia de muestreo que coincida con el archivo de audio para evitar errores de audio a texto.
Puede usar la consola de administración de AWS, HTTP/2, WebSockets y varios SDK de AWS para las transcripciones de streaming, según cómo desee utilizar la herramienta de transcripción.
A continuación, se explica un tutorial sobre la transcripción de audio en streaming con la consola de administración de AWS.
- Seleccione Transcripción en tiempo real en el panel de navegación izquierdo.
- Seleccione opciones como el idioma, la identificación del hablante, la eliminación de contenido y las personalizaciones antes de iniciar la transmisión.
- Haga clic en el botón Iniciar transmisión para grabar directamente en tiempo real y ver el resultado que comenzará a transcribirse en el cuadro de salida de transcripción que aparece a continuación.
Una vez que se complete la conversión de la grabación de audio, puede hacer clic en el botón Descargar la transcripción completa para descargar gratis la transcripción del archivo JSON.
Transcripción de archivos por lotes
La transcripción por lotes se usa para transcribir uno o más archivos multimedia existentes almacenados en un bucket de almacenamiento en la nube de Amazon S3. Con el servicio por lotes, puede cargar hasta 10 000 trabajos de archivos de audio en cola para procesarlos en un sistema de primero en entrar, primero en salir. Los trabajos de grabación de voz se pueden procesar simultáneamente, convirtiendo los archivos de audio a la vez, según la suscripción.
La transcripción por lotes admite FLAC y WAV (con codificación PCM de 16 bits) como formatos preferidos. Sin embargo, también se admiten otros formatos como AMR, M4A, MP3, MP4, Ogg y WebM. Asegúrese de establecer una frecuencia de muestreo que coincida con el archivo de audio para evitar errores de audio a texto.
Puede usar AWS CLI, la consola de administración de AWS, y varios SDK de AWS para convertir audio en texto mediante el proceso de transcripción por lotes.
A continuación, se explica un tutorial sobre la transcripción de audio por lotes con la consola de administración de AWS.
- Cargue el archivo multimedia que desea transcribir en un bucket de Amazon S3.
- Seleccione Trabajos de transcripción en el panel de navegación de la izquierda. Esto lo llevará a una lista de sus trabajos de transcripción.
- Seleccione Crear trabajo y rellene los campos de la página Especificar detalles del trabajo.
- Una vez que haya configurado el trabajo, haga clic en el botón Crear trabajo para comenzar.
- Vuelva a la página de Trabajos de transcripción, donde puede ver el estado de su trabajo.
- Seleccione la ruta de archivo vinculada en la columna de la derecha, en Ubicación de los datos de salida, para ver la transcripción del archivo JSON.
Nota: Si ha elegido un bucket administrado por el servicio para la salida, puede ver un panel de vista previa de la transcripción en la página de información de su trabajo de transcripción, junto con un botón de descarga para su archivo JSON de audio a texto.
Complete las siguientes páginas durante la configuración.
Datos de entrada
En la página Datos de entrada,la ubicación del archivo de entrada en S3 es su archivo de audio en el bucket de S3 existente, y los datos de salida es un bucket administrado por el servicio de S3 o su propio bucket de S3.
Configurar trabajo
La página Configurar trabajo le permite seleccionar personalizaciones como la identificación de canales, la redacción y el filtrado de contenido y el vocabulario personalizado.
¿Cuáles son algunas de las capacidades de transcripción adicionales?
Amazon Transcribe cuenta con una serie de características adicionales para crear transcripciones más útiles, seguras y precisas al convertir archivos de audio o vídeo.
Vocabularios y modelos lingüísticos personalizados
Los usuarios pueden crear vocabularios y modelos lingüísticos personalizados para capturar y transcribir audio con precisión con nombres de marca, acrónimos, palabras técnicas y jerga específicos del dominio. Los modelos de lenguaje personalizados benefician a las grandes organizaciones con ecosistemas lingüísticos internos prósperos o a industrias técnicas altamente especializadas.
Los vocabularios personalizados son archivos creados por el usuario que muestran cómo pronunciar palabras específicas. Por ejemplo, un proyecto llamado VX02Q se puede agregar a un vocabulario personalizado con la pronunciación V.X.-cero-dos-Q.
Los modelos de lenguaje personalizados permiten que el modelo de conversión de audio a texto complete un entrenamiento adicional en un conjunto de datos existente para comprender el contexto del lenguaje específico de un dominio. Por ejemplo, si entrena a su modelo con una carga de texto de artículos de investigación sobre ciencias del clima, es posible que su modelo aprenda que “témpano de hielo” es un par de palabras más probable que “flujo de hielo”. Del mismo modo, si hace referencia a un producto llamado “Bzntry”, un conjunto de datos de archivos de audio con varias menciones de “bee-zen-tree” hará coincidir automáticamente el audio con la salida de la palabra.
Tanto la transcripción de audio a texto por lotes como de streaming admiten vocabularios y modelos de lenguaje personalizados.
Moderación automática
Un filtro de vocabulario personalizado le permite enmascarar, reemplazar o etiquetar (“vocabularyFilterMatch”: true) una palabra o combinación de palabras específica en la salida de la transcripción JSON.
Ejemplos:
- Enmascarar palabras profanas con tres asteriscos (***)
- Sustituir el nombre de un producto secreto previo al lanzamiento por la palabra “NewProduct”
- Cuente la cantidad de etiquetas etiquetadas con “um” o “como” en una transcripción para ayudar al orador a perfeccionar sus habilidades para hablar en público
Tanto la transcripción de audio a texto por lotes como de streaming admiten filtros de vocabulario.
Identificación y redacción de PII
La información de identificación personal (PII) se puede redactar y etiquetar automáticamente en las transcripciones de audio a texto. Esto es importante para almacenar información confidencial en las empresas, ya que la PII puede estar sujeta a estrictas leyes de confidencialidad.
Los tipos de PII incluidos en Amazon Transcribe son nombres, direcciones, direcciones de correo electrónico, números de teléfono, detalles de números bancarios, PIN y números de seguridad social. El conversor de audio a texto reemplaza la palabra del archivo JSON por [PII] en el cuerpo del texto principal de la transcripción, y se cuenta y clasifica por tipo en el campo JSON “redacciones”.
Subtitulación
Amazon Transcribe permite a los usuarios generar archivos de subtítulos WebVTT (*.vtt) y SubRip (*.srt) para combinarlos con vídeos, junto con el archivo JSON de salida normal. Los subtítulos se muestran al mismo tiempo que se pronuncia el texto en el archivo de audio o vídeo y permanecen visibles hasta que se produce una pausa natural en el audio o el orador termina de hablar.
Detección de toxicidad
Amazon Transcribe se puede utilizar para identificar y clasificar el lenguaje tóxico. El contenido tóxico se marca y clasifica en siete categorías, que incluyen el acoso sexual, la incitación al odio, las amenazas, el abuso, las blasfemias, los insultos y los gráficos. Amazon Transcribe utiliza técnicas de identificación avanzadas, como la altura y el tono, para ofrecer un contexto adicional a las conversaciones.
Análisis de llamadas
Amazon Transcribe ofrece una API especial para llamadas de ventas y servicio al cliente. Puede usarlo para obtener información sobre la opinión de los clientes y los agentes, los conductores de llamadas, las menciones de frases, el tiempo sin conversación, las interrupciones, la velocidad de conversación, la detección de problemas en tiempo real y el resumen de las conversaciones. Amazon Transcribe también puede realizar la redacción de grabaciones de audio después de la llamada, sustituyendo la PII por silencio en las llamadas almacenadas.
Transcripción médica
Amazon Transcribe ofrece API compatibles con la HIPAA que proporcionan transcripciones precisas de audio a texto en lenguaje médico a partir de archivos de audio y, al mismo tiempo, priorizan la privacidad y la seguridad de los datos de los pacientes. Es útil en las interacciones entre el médico y el paciente en las que la toma de notas lleva mucho tiempo, distrae y es perjudicial.
¿Cómo puede AWS cubrir sus necesidades de transcripción de audio?
La transcripción de audio a texto lleva la voz de un método de comunicación puntual a un origen de datos almacenado, con capacidad de búsqueda, analizable y de gran valor. Las organizaciones que utilizan el reconocimiento de voz para transcribir audio están obteniendo importantes beneficios en cuanto a productividad, formación, servicio al cliente, ventas y mucho más.
La integración del conversor de audio a texto de Amazon Transcribe en su organización garantiza que las grabaciones de voz conserven su valor y multipliquen sus útiles aplicaciones. Eche un vistazo a la gama de soluciones de IA de AWS que le ayudarán a crear y escalar aplicaciones de forma más rápida y sólida.