Localización y accesibilidad en streaming en vivo utilizando AWS Media Services

Por Chris Zhang, Arquitecto de Soluciones Especialista Senior en AWS y Gavin Guzman, Gerente de Soluciones para Clientes (CSM) en AWS.

La transmisión en vivo transformó la forma en que consumimos contenido, desde comunicaciones corporativas hasta transmisiones deportivas. Con el 82–85% de los fanáticos del deporte usando servicios de streaming, la demanda de contenido accesible y multilingüe es mayor que nunca. Sin embargo, los enfoques tradicionales para subtitulado y traducción en vivo son prohibitivamente costosos, requiriendo recursos humanos e infraestructura técnica significativos. Esta barrera de costos frecuentemente obliga a las organizaciones a limitar sus ofertas de idiomas, excluyendo a millones de espectadores potenciales que tienen discapacidad auditiva, hablantes no nativos o audiencias internacionales. AWS Media Services hace posible generar automáticamente subtítulos y traducciones de alta calidad en varios idiomas a escala, reduciendo drásticamente los costos mientras expande el alcance global.

Este blog proporciona una visión general integral de la tecnología de streaming actual para localización y accesibilidad. Le ayuda a evaluar la tecnología de localización de transmisión en vivo y elegir soluciones económicas, comprobadas, integradas, desplegables y listas para producción.

Público objetivo

Este blog fue elaborado para profesionales involucrados en decisiones de negocio, evaluación técnica e implementación de proyectos de localización y accesibilidad de transmisión en vivo donde subtítulos en múltiples idiomas, closed captions y doblaje en vivo son necesarios. Si tiene interés en conocer los desarrollos actuales de la industria en transmisión en vivo accesible, esto sirve como un excelente recurso de referencia.

Beneficios para los negocios

Si usted posee derechos de contenido o crea contenido, alcanzar audiencias globales es cada vez más importante. Ofrecer subtítulos en múltiples idiomas y audio doblado expande significativamente el alcance de mercado y desbloquea nuevas oportunidades de ingresos. Creadores de contenido que ofrecen opciones multilingües ven un impacto medible: mayor audiencia internacional, engagement aumentado en diversas demografías y reputación de marca mejorada. Al eliminar barreras lingüísticas, las empresas pueden monetizar contenido en mercados anteriormente inexplorados y maximizar el retorno sobre la inversión en contenido.

Consideraciones de costo y expansión de mercado

Los servicios tradicionales de transcripción de audio, traducción y doblaje restringieron el contenido accesible debido a los altos costos, dejando a muchos creadores incapaces de alcanzar audiencias globales. Esta guía demuestra cómo puede usar servicios basados en la nube e IA generativa para reducir drásticamente esas barreras de entrada. Los costos significativamente menores permiten que organizaciones de todos los tamaños — desde creadores de contenido independientes hasta grandes empresas — hagan sus transmisiones en vivo accesibles en varios idiomas y capacidades. Esta transformación en la tecnología de localización ayuda a crear nuevas oportunidades para productores de contenido, al mismo tiempo que mejora la eficiencia de capital y deleita a espectadores en todo el mundo.

Visión general de la arquitectura y prerrequisitos

Antes de implementar esta solución, usted debe tener un entendimiento básico de las arquitecturas de transmisión en vivo. El blog Cree una arquitectura resiliente de transmisión en vivo entre regiones en AWS proporciona el conocimiento fundamental que necesitará.

Para eventos de transmisión en vivo de alto valor, una arquitectura resiliente y redundante es crucial. Aunque la arquitectura de referencia demuestra una solución integral entre Regiones de AWS con redundancia completa, puede adaptarla para satisfacer sus necesidades y presupuesto específicos:

Reduzca a una sola Región
Use un solo pipeline en lugar de pipelines estándar

Este blog se enfoca en agregar capacidades de localización — incluyendo closed captions, subtítulos y doblaje de audio — como componentes modulares a su arquitectura de streaming. Hacemos referencia a estándares de la industria como CEA-608/708 (el estándar norteamericano de closed captions), DVB Subtitle, DVB Teletext y protocolos HTTP Live Streaming (HLS), proporcionando contexto para estos elementos técnicos a lo largo de la guía.

Consideraciones de diseño

Para elegir las tecnologías de localización correctas, considere estos aspectos principales:

Comience con su workflow actual de arquitectura de transmisión en vivo
Determine los requisitos de idioma
Evalúe si los idiomas son soportados por el protocolo 608
Evalúe las necesidades de doblaje en vivo
Defina los requisitos de latencia
Determine si el streaming es para eventos en vivo o canales de transmisión 24×7

Estas respuestas ayudan a determinar la mejor arquitectura y los mejores servicios y cómo integrar la tecnología a su flujo de trabajo actual de transmisión en vivo. Los procesos de closed captions, subtitulado y doblaje dependen fuertemente de tecnologías de Reconocimiento Automático de Voz (ASR), aprendizaje automático y tecnologías de IA generativa para transcribir, traducir y generar doblaje de audio. Estas tecnologías están a la vanguardia de la innovación, evolucionando rápidamente y mejorando continuamente. Una arquitectura que permite a los clientes elegir la tecnología correcta para la tarea correcta es importante y ayuda a proteger su inversión.

Cómo elegir una arquitectura para implementar la localización

Elija el punto de integración correcto para reducir la complejidad al integrar capacidades de localización en su workflow de transmisión en vivo. Un workflow típico de transmisión en vivo incluye transporte de video usando AWS Elemental MediaConnect, transcodificación de video usando AWS Elemental MediaLive, servicio de origen de video usando AWS Elemental MediaPackage, y distribución final a los usuarios por medio de una red de distribución de contenido (CDN) como Amazon CloudFront.

Siguiendo el pipeline de procesamiento de video, el flujo de trabajo tiene los siguientes puntos de integración (mostrados en la Figura 1):

Puntos de integración en el pipeline de procesamiento de medios

Figura 1: Puntos de integración en el pipeline de procesamiento de medios

Punto de integración 1: El video se envía desde la fuente de video hacia MediaConnect. Esta etapa es opcional, y puede usar un protocolo alternativo, como RTMP, para enviar el video desde la fuente directamente hacia MediaLive. MediaConnect proporciona transporte seguro con cifrado de video opcional usando el protocolo SRT.
Punto de integración 2: Este punto de integración está posicionado inmediatamente antes de la ingesta de video en MediaLive. MediaLive puede convertir subtítulos 608 embebidos en WebVTT para HTTP Live Streaming (HLS). Esta opción se usa comúnmente cuando los idiomas objetivo son soportados por 608, como inglés, español, francés, holandés, alemán, portugués e italiano. MediaLive también puede procesar subtítulos embebidos, como DVB Subtitle y DVB Teletext, si están presentes.
Punto de integración 3: Esta fase de integración incluye los puntos 3.1, 3.2 y 3.3. En estos puntos, el video fue transcodificado y procesado, un manifiesto de playlist principal y sus múltiples segmentos de video en diferentes bitrate son producidos, listos para distribución. En este punto, puede aumentar la playlist con pistas adicionales de subtítulos y doblaje de audio, alinear el tiempo con el video original e insertarlas en el manifiesto principal o producir un manifiesto alternativo para incluir las pistas de subtítulos y doblaje de audio.
Punto de integración 4: Este es el último punto de integración, en el lado del cliente. Este método requiere desarrollo en el lado del cliente, como incorporación de iFrame para players basados en navegador o desarrollo de aplicaciones para integrar SDKs o APIs y recuperar pistas de subtítulos o doblaje de audio de un endpoint diferente al del video original.

Examinemos cada punto de integración para un análisis detallado de los pros y contras.

Análisis de los puntos de integración

Punto de integración 1: Elija este punto de integración cuando ya tenga una solución de creación de closed captions. La transmisión en vivo comienza en una cámara de video en el lugar o en un feed de producción en vivo, pasa por la solución de closed captions antes de ser enviada a la nube para transcodificación y distribución. Usted debe proporcionar su propia solución de creación de closed captions al elegir esta opción.

Punto de integración 2: En este punto, la transmisión en vivo ya está en la nube y necesita que los subtítulos sean agregados. La solución común es subtítulos 608 embedded en la transmisión en vivo antes de la transcodificación en MediaLive. El servicio de creación de closed captions ingiere su transmisión en vivo, transcribe y traduce subtítulos, genera doblaje de audio e incrusta los subtítulos y el audio doblado en la transmisión en vivo, luego la encamina hacia MediaLive para procesamiento. Las opciones disponibles son embedding CEA-608, DVB Subtitle y DVB Teletext.

Los closed captions 608 embed están limitados a idiomas basados en el latín, como inglés, español, francés, holandés, alemán, portugués e italiano. El número total de pistas de subtítulos está limitado a CC1, CC2, CC3 y CC4.

Los subtítulos DVB y teletext DVB embebidos no están fácilmente disponibles, frecuentemente vienen con soporte limitado a idiomas y el codificador también puede tener soporte limitado para subtítulos DVB y teletext DVB, dependiendo del caso de uso.

La ventaja de usar las opciones de embedding es la baja latencia, la menor interrupción en el pipeline de procesamiento y distribución de video, y la posibilidad de usar servicios de creación de closed captions basados en software como servicio (SaaS) o soluciones desplegadas en su nube privada virtual (VPC).

Punto de integración 3: Una tarea importante de integración aquí es adjuntar pistas adicionales de subtítulos y doblaje de audio al manifiesto principal existente y realizar la alineación de tiempo con el video principal. Cuando se hace correctamente, la playlist de video principal tiene pistas de closed captions o subtítulos y pistas de doblaje de audio integradas nativamente al video y audio originales. Este método evita cambios y proporciona integración perfecta con el servidor de origen, la CDN y el player del cliente.

La ventaja del punto de integración 3 es que no hay limitaciones en el soporte de idiomas. Esta solución puede usar servicios de subtitulado SaaS y usa HLS WebVTT para integrar subtítulos sin limitación en el número total de idiomas.

La desventaja es la latencia de procesamiento agregada por el servicio SaaS para transcribir, traducir y doblar audio, y para alinear las pistas de subtítulos y doblaje de audio con el video original.

Punto de integración 4: Este punto de integración ocurre en el lado del cliente. El video principal, los subtítulos y el doblaje de audio son entregados por paths y orígenes separados. La sincronización de tiempo ocurre en el lado del cliente. La ventaja es que no hay alteraciones en el pipeline de video original. La desventaja es que requiere modificar el player de video para incluir código adicional para procesar subtítulos y doblaje de audio en el lado del cliente.

Comparación de integración

Punto de Integración	1	2	3	4
Costo	Alto*	Bajo	Bajo	Bajo
Uso de SaaS	No	Sí	Sí	Sí
Baja latencia	Sí	Sí	No	Depende*
Independiente del cliente	Sí	Sí	Sí	No
Cualquier idioma	No	No	Sí	Sí

Alto*: Las soluciones de creación de closed captions en el lugar requieren un codificador de hardware de closed captions y son opcionalmente combinadas con una solución SaaS para proporcionar la incorporación de closed captions. Probablemente cuestan más que las soluciones basadas en SaaS.

Depende*: La latencia depende de dos factores. Primero, el retardo de procesamiento de transcripción y traducción. Idiomas diferentes tienen características de retardo diferentes, por lo que no todos los idiomas se entregan de la misma forma. Por ejemplo, para una transmisión en vivo en inglés, los subtítulos en inglés necesitan solo del servicio de transcripción, pero los subtítulos en japonés necesitarán traducción del inglés al japonés con retardo adicional. En segundo lugar, depende de si el cliente necesita entregar una experiencia de video multilingüe sincronizada o no. Por ejemplo, si el cliente elige entregar cada idioma de forma independiente, el retardo puede variar para cada entrega de idioma.

Recomendación de arquitectura de integración

Los puntos de integración 2 y 3 son las opciones más recomendadas porque permiten facilidad de integración, facilidad de despliegue con puntos mínimos de contacto de integración, y un camino convergido de entrega de video para closed captions, subtítulos y doblaje de audio junto con el video principal.

Para necesidades de baja latencia donde la tecnología de incorporación 608 funciona para sus idiomas objetivo, use el punto de integración 2.
Para situaciones en que DVB Subtitle y DVB Teletext funcionan para su flujo de trabajo y el transcodificador puede soportar el flujo de trabajo deseado, use el punto de integración 2.
Para soporte de subtítulos en múltiples idiomas, donde el 608 embebido no es una opción, use el punto de integración 3.

El punto de integración 4 proporciona una solución cuando no puede modificar su pipeline principal de distribución de video o no dispone de los recursos de desarrollo para hacer cambios en su aplicación.

El punto de integración 1 depende de la elección del cliente. Si ya tiene una solución de subtitulado existente, pero necesita idiomas de subtítulos adicionales no soportados por los subtítulos embebidos, o desea expandir las soluciones de closed captions o subtítulos a servicios adicionales, recomendamos usar un servicio SaaS, en el cual el costo es significativamente menor en comparación con soluciones basadas en hardware.

Casos de estudio de implementación

Examinemos un servicio de subtitulado y doblaje en vivo de SyncWords para ver cómo ayuda a integrar capacidades de localización a la transmisión en vivo usando AWS Media Services. SyncWords se especializa en construir el pipeline de integración y elimina el trabajo pesado para habilitar la localización, de modo que pueda elegir los servicios más adecuados para tareas específicas. Por ejemplo, puede elegir voz clonada para proporcionar audio doblado con emoción, separación de voz y correspondencia de tono, como Amazon Nova u otros servicios de IA generativa para traducción de subtítulos.

Flujo de trabajo seguro de incorporación 608 con baja latencia

La primera opción usa la incorporación 608 para entregar subtítulos en hasta cuatro idiomas simultáneamente, aprovechando los canales de subtítulos CC1, CC2, CC3 y CC4. Esta opción ofrece inserción de subtítulos con baja latencia. MediaLive convierte los subtítulos embebidos en WebVTT para transmisión en vivo HLS.

Figura 2: SyncWords – flujo de trabajo basado en SRT

El flujo de trabajo basado en SRT tiene las siguientes limitaciones:

Conjunto de caracteres limitado: SRT soporta solo el conjunto básico de caracteres latinos, además de algunos caracteres extendidos y símbolos especiales
Opciones de idioma restringidas: debido a restricciones de caracteres, SRT soporta solo inglés, español, francés, portugués, italiano, alemán y holandés
Soporta hasta cuatro idiomas simultáneos

El flujo de trabajo basado en SRT se beneficia del amplio soporte en sistemas actuales de transmisión y streaming en vivo. El 608 es ampliamente soportado, y los subtítulos embebidos pueden usar el protocolo SRT para transporte seguro, permitiendo el transporte flexible de producción, contribución y distribución de transmisión en vivo.

Soporte a DVB Subtitle y DVB Teletext en el flujo de trabajo SRT

SyncWords extendió su soporte de salida de subtítulos con opciones DVB Subtitle, DVB Teletext y DVB TTML. Con DVB Subtitle y DVB Teletext, los clientes pueden usar MediaLive para procesar DVB Subtitle para aplicaciones pass-through o burn-in, y usar DVB Teletext para convertir a WebVTT para streaming OTT.

Flujo de trabajo de localización de vinculación tardía

A medida que crece la demanda por transmisión en vivo localizada en más idiomas, otra opción para integrar subtítulos es agregar pistas de subtítulos después de la transcodificación. Por ejemplo, en HTTP live streaming, el codificador escribe continuamente el archivo de manifiesto y los segmentos de medios. El archivo de manifiesto principal se actualiza solo después de al menos 2–3 segmentos para garantizar reproducción suave y buffering en el lado del cliente. Aquí puede aumentar la playlist con pistas de subtítulos en varios idiomas. La vinculación de subtítulos con assets de medios transcodificados produce un activo de medios de streaming HLS integrado. Comparado con el workflow basado en SRT, este es un mecanismo de «vinculación tardía» para combinar subtítulos y assets de medios transcodificados después de la transcodificación. El workflow de vinculación tardía ofrece estos beneficios:

Soporta muchos idiomas, sin limitación real en el número total de idiomas de subtítulos
Los assets de medios combinados pueden ser procesados por cualquier servicio de origen estándar, como MediaPackage
Hace la distribución independiente de CDN y segura para players
No requiere cambios en la CDN ni en el player para soportar subtítulos en múltiples idiomas

Figura 3: Flujo de trabajo de inserción de subtítulos de vinculación tardía

Discutimos dos métodos de implementación diferentes para habilitar la localización y la accesibilidad de transmisión en vivo; estas son soluciones listas para producción y desplegables que muchos clientes de AWS despliegan hoy. A medida que la industria y la tecnología evolucionan, habrá mejoras para simplificar y optimizar aún más este flujo de trabajo.

Conclusión

En esta guía, presentamos información integral sobre cómo puede implementar localización y accesibilidad de transmisión en vivo usando AWS Media Services y servicios de socios. Aprendió sobre múltiples enfoques de integración, con los Puntos de Integración 2 y 3 emergiendo como las soluciones recomendadas para la mayoría de los casos de uso. Y sobre la importancia de las soluciones basadas en SaaS y de las soluciones actualmente desplegables usando estándares actuales de subtítulos como CEA-608, DVB Subtitle, DVB Teletext y WebVTT. Aunque las soluciones actuales enfrentan algunas limitaciones, particularmente con el soporte de idiomas del protocolo 608, las tecnologías emergentes y los avances en IA prometen simplificar la implementación y expandir las capacidades de soporte de idiomas.

Use esta guía como un recurso para organizaciones que buscan expandir su alcance global a través de contenido de streaming localizado para sindicación, transmisión abierta, publicación directa y streaming OTT en vivo multilingüe.

Este blog es una traducción. Vea el original en: https://aws.amazon.com/blogs/media/live-streaming-localization-and-accessibility-using-aws-media-services/

Autores

Chris Zhang

Chris es un Arquitecto de Soluciones Especialista Senior en AWS, con enfoque en Servicios de Medios para ayudar a clientes a modernizar y arquitectar cargas de trabajo de medios. Trabaja en asociación con clientes y socios de AWS para co-crear soluciones innovadoras que proporcionan experiencias excepcionales a los usuarios en casos de uso de medios y entretenimiento.

Gavin Guzman

Gavin lidera clientes corporativos a través de desafíos estratégicos como Gerente de Soluciones para Clientes (CSM) en AWS. Apasionado por la tecnología, cree que los mayores desafíos del mundo pueden ser enfrentados al proporcionar las herramientas correctas para líderes innovadores.

Traductor

João Seike

Joao es Arquitecto de Soluciones en AWS Brasil, especializado en atender clientes del sector de Medios y Entretenimiento. Ayuda a empresas a transformar sus operaciones a través de arquitecturas en la nube escalables e innovadoras.

Blog de Amazon Web Services (AWS)