Localização e acessibilidade em streaming ao vivo utilizando AWS Media Services

Por Chris Zhang, Arquiteto de Soluções Especialista Sênior na AWS e Gavin Guzman, Gerente de Soluções para Clientes (CSM) na AWS.

A transmissão ao vivo transformou a forma como consumimos conteúdo, desde comunicações corporativas até transmissões esportivas. Com 82–85% dos fãs de esportes usando serviços de streaming, a demanda por conteúdo acessível e multilíngue é maior do que nunca. No entanto, as abordagens tradicionais para legendagem e tradução ao vivo são proibitivamente caras, exigindo recursos humanos e infraestrutura técnica significativos. Essa barreira de custo frequentemente força as organizações a limitarem suas ofertas de idiomas, excluindo milhões de espectadores em potencial que têm deficiência auditiva, falantes não nativos ou audiências internacionais. AWS Media Services torna possível gerar automaticamente legendas e traduções de alta qualidade em vários idiomas em escala, reduzindo drasticamente os custos enquanto expande o alcance global.

Este blog fornece uma visão geral abrangente da tecnologia de streaming atual para localização e acessibilidade. Ele ajuda você a avaliar a tecnologia de localização de transmissão ao vivo e escolher soluções econômicas, comprovadas, integradas, implantáveis e prontas para produção.

Público-alvo

Este blog foi elaborado para profissionais envolvidos em decisões de negócios, avaliação técnica e implementação de projetos de localização e acessibilidade de transmissão ao vivo onde legendas em múltiplos idiomas, closed captions e dublagem ao vivo são necessários. Se você tem interesse em conhecer os desenvolvimentos atuais da indústria em transmissão ao vivo acessível, isto serve como um excelente recurso de referência.

Benefícios para os negócios

Se você possui direitos de conteúdo ou cria conteúdo, alcançar audiências globais é cada vez mais importante. Oferecer legendas em múltiplos idiomas e áudio dublado expande significativamente o alcance de mercado e desbloqueia novas oportunidades de receita. Criadores de conteúdo que oferecem opções multilíngues veem impacto mensurável: maior audiência internacional, engajamento aumentado em diversas demografias e reputação de marca aprimorada. Ao remover barreiras linguísticas, as empresas podem monetizar conteúdo em mercados anteriormente inexplorados e maximizar o retorno sobre o investimento em conteúdo.

Considerações de custo e expansão de mercado

Os serviços tradicionais de transcrição de áudio, tradução e dublagem restringiram o conteúdo acessível devido aos altos custos, deixando muitos criadores incapazes de alcançar audiências globais. Este guia demonstra como você pode usar serviços baseados em nuvem e IA generativa para reduzir drasticamente essas barreiras de entrada. Os custos significativamente menores permitem que organizações de todos os tamanhos — de criadores de conteúdo independentes a grandes empresas — tornem suas transmissões ao vivo acessíveis em vários idiomas e capacidades. Essa transformação na tecnologia de localização ajuda a criar novas oportunidades para produtores de conteúdo, ao mesmo tempo em que melhora a eficiência de capital e encanta espectadores em todo o mundo.

Visão geral da arquitetura e pré-requisitos

Antes de implementar esta solução, você deve ter um entendimento básico das arquiteturas de transmissão ao vivo. O blog Crie uma arquitetura resiliente de transmissão ao vivo entre regiões na AWS fornece o conhecimento fundamental de que você precisará.

Para eventos de transmissão ao vivo de alto valor, uma arquitetura resiliente e redundante é crucial. Embora a arquitetura de referência demonstre uma solução abrangente entre Regiões da AWS com redundância completa, você pode adaptá-la para atender às suas necessidades e orçamento específicos:

Reduza para uma única Região
Use um único pipeline em vez de pipelines padrão

Este blog foca em adicionar recursos de localização — incluindo closed captions, legendas e dublagem de áudio — como componentes modulares à sua arquitetura de streaming. Fazemos referência a padrões da indústria como CEA-608/708 (o padrão norte-americano de closed captions), DVB Subtitle, DVB Teletext e protocolos HTTP Live Streaming (HLS), fornecendo contexto para esses elementos técnicos ao longo do guia.

Considerações de design

Para escolher as tecnologias de localização certas, considere estes aspectos principais:

Comece com seu workflow atual de arquitetura de transmissão ao vivo
Determine os requisitos de idioma
Avalie se os idiomas são suportados pelo protocolo 608
Avalie as necessidades de dublagem ao vivo
Defina os requisitos de latência
Determine se o streaming é para eventos ao vivo ou canais de transmissão 24×7

Essas respostas ajudam a determinar a melhor arquitetura e os melhores serviços e como integrar a tecnologia ao seu fluxo de trabalho atual de transmissão ao vivo. Os processos de closed captions, legenda e dublagem dependem fortemente de tecnologias de Reconhecimento Automático de Fala (ASR), aprendizado de máquina e tecnologias de IA generativa para transcrever, traduzir e gerar dublagem de áudio. Essas tecnologias estão na vanguarda da inovação, evoluindo rapidamente e melhorando continuamente. Uma arquitetura que permite aos clientes escolher a tecnologia certa para a tarefa certa é importante e ajuda a proteger seu investimento.

Como escolher uma arquitetura para implementar a localização

Escolha o ponto de integração certo para reduzir a complexidade ao integrar recursos de localização em seu workflow de transmissão ao vivo. Um workflow típico de transmissão ao vivo inclui transporte de vídeo usando AWS Elemental MediaConnect, transcodificação de vídeo usando AWS Elemental MediaLive, serviço de origem de vídeo usando AWS Elemental MediaPackage, e distribuição final aos usuários por meio de uma rede de distribuição de conteúdo (CDN) como Amazon CloudFront.

Seguindo o pipeline de processamento de vídeo, o fluxo de trabalho tem os seguintes pontos de integração (mostrados na Figura 1):

Pontos de integração no pipeline de processamento de mídia

Figura 1: Pontos de integração no pipeline de processamento de mídia

Ponto de integração 1: O vídeo é enviado da fonte de vídeo para o MediaConnect. Esta etapa é opcional, e você pode usar um protocolo alternativo, como o RTMP, para enviar o vídeo da fonte diretamente para o MediaLive. O MediaConnect fornece transporte seguro com criptografia de vídeo opcional usando o protocolo SRT.
Ponto de integração 2: Este ponto de integração está posicionado imediatamente antes da ingestão de vídeo no MediaLive. O MediaLive pode converter legendas 608 embutidas em WebVTT para HTTP Live Streaming (HLS). Esta opção é comumente usada quando os idiomas-alvo são suportados pelo 608, como inglês, espanhol, francês, holandês, alemão, português e italiano. O MediaLive também pode processar legendas embutidas, como DVB Subtitle e DVB Teletext, se estiverem presentes.
Ponto de integração 3: Esta fase de integração inclui os pontos 3.1, 3.2 e 3.3. Nesses pontos, o vídeo foi transcodificado e processado, um manifesto de playlist principal e seus múltiplos segmentos de vídeo em diferentes bitrate são produzidos, prontos para distribuição. Neste ponto, você pode aumentar a playlist com faixas adicionais de subtítulos e dublagem de áudio, alinhar o tempo com o vídeo original e inseri-las no manifesto principal ou produzir um manifesto alternativo para incluir as faixas de subtítulos e dublagem de áudio.
Ponto de integração 4: Este é o último ponto de integração, no lado do cliente. Esse método requer desenvolvimento no lado do cliente, como incorporação de iFrame para players baseados em navegador ou desenvolvimento de aplicativos para integrar SDKs ou APIs e recuperar faixas de subtítulos ou dublagem de áudio de um endpoint diferente do vídeo original.

Vamos examinar cada ponto de integração para uma análise detalhada dos prós e contras.

Análise dos pontos de integração

Ponto de integração 1: Escolha este ponto de integração quando você já tiver uma solução de criação de closed captions. A transmissão ao vivo começa em uma câmera de vídeo no local ou em um feed de produção ao vivo, passa pela solução de closed captions antes de ser enviada para a nuvem para transcodificação e distribuição. Você deve fornecer sua própria solução de criação de closed captions ao escolher esta opção.

Ponto de integração 2: Neste ponto, a transmissão ao vivo já está na nuvem e precisa que as legendas sejam adicionadas. A solução comum é legendas 608 embedded na transmissão ao vivo antes da transcodificação no MediaLive. O serviço de criação de closed captions ingere sua transmissão ao vivo, transcreve e traduz legendas, gera dublagem de áudio e embute as legendas e o áudio dublado na transmissão ao vivo, depois encaminha-a para o MediaLive para processamento. As opções disponíveis são embedding CEA-608, DVB Subtitle e DVB Teletext.

As closed captions 608 embed estão limitadas a idiomas baseados no latim, como inglês, espanhol, francês, holandês, alemão, português e italiano. O número total de faixas de legendas é limitado a CC1, CC2, CC3 e CC4.

As legendas DVB e teletext DVB embutidos não estão prontamente disponíveis, frequentemente vêm com suporte limitado a idiomas e o codificador também pode ter suporte limitado para legendas DVB e teletext DVB, dependendo do caso de uso.

A vantagem de usar as opções embedding é a baixa latência, a menor interrupção no pipeline de processamento e distribuição de vídeo, e a possibilidade de usar serviços de criação de closed captions baseados em software como serviço (SaaS) ou soluções implantadas em sua nuvem privada virtual (VPC).

Ponto de integração 3: Uma tarefa importante de integração aqui é anexar faixas adicionais de subtítulos e dublagem de áudio ao manifesto principal existente e realizar o alinhamento de tempo com o vídeo principal. Quando feito corretamente, a playlist de vídeo principal tem faixas de closed captions ou legendas e faixas de dublagem de áudio integradas nativamente ao vídeo e áudio originais. Esse método evita mudanças e fornece integração perfeita com o servidor de origem, a CDN e o player do cliente.

A vantagem do ponto de integração 3 é que não há limitações no suporte a idiomas. Esta solução pode usar serviços de legendagem SaaS e usa HLS WebVTT para integrar legendas sem limitação no número total de idiomas.

A desvantagem é a latência de processamento adicionada pelo serviço SaaS para transcrever, traduzir e dublar áudio, e para alinhar as faixas de legenda e dublagem de áudio com o vídeo original.

Ponto de integração 4: Este ponto de integração ocorre no lado do cliente. O vídeo principal, as legendas e a dublagem de áudio são entregues por paths e origens separados. A sincronização de tempo ocorre no lado do cliente.A vantagem é que não há alterações no pipeline de vídeo original. A desvantagem é que requer alterar o player de vídeo para incluir código adicional para processar subtítulos e dublagem de áudio no lado do cliente.

Comparação de integração

Ponto de Integração	1	2	3	4
Custo	Alto*	Baixo	Baixo	Baixo
Uso de SaaS	Não	Sim	Sim	Sim
Baixa latência	Sim	Sim	Não	Depende*
Independente do cliente	Sim	Sim	Sim	Não
Qualquer idioma	Não	Não	Sim	Sim

Alto*: As soluções de criação de closed captions no local exigem um codificador de hardware de closed captions e são opcionalmente combinadas com uma solução SaaS para fornecer a incorporação de closed captions. Elas provavelmente custam mais do que as soluções baseadas em SaaS.

Depende*: A latência depende de dois fatores. Primeiro, o atraso de processamento de transcrição e tradução. Idiomas diferentes têm características de atraso diferentes, então nem todos os idiomas são entregues da mesma forma. Por exemplo, para uma transmissão ao vivo em inglês, as legendas em inglês precisam apenas do serviço de transcrição, mas os subtítulos em japonês precisarão de tradução do inglês para o japonês com atraso adicional. Em segundo lugar, depende de o cliente precisar entregar uma experiência de vídeo multilíngue sincronizada ou não. Por exemplo, se o cliente escolher entregar cada idioma de forma independente, o atraso pode variar para cada entrega de idioma.

Recomendação de arquitetura de integração

Os pontos de integração 2 e 3 são as opções mais recomendadas porque permitem facilidade de integração, facilidade de implantação com pontos mínimos de contato de integração, e um caminho convergido de entrega de vídeo para closed captions, legenda e dublagem de áudio junto com o vídeo principal.

Para necessidades de baixa latência onde a tecnologia de incorporação 608 funciona para seus idiomas-alvo, use o ponto de integração 2.
Para situações em que DVB Subtitle e DVB Teletext funcionam para seu fluxo de trabalho e o transcodificador pode suportar o fluxo de trabalho desejado, use o ponto de integração 2.
Para suporte de legendas em múltiplos idiomas, onde o 608 embutido não é uma opção, use o ponto de integração 3.

O ponto de integração 4 fornece uma solução quando você não pode modificar seu pipeline principal de distribuição de vídeo ou não dispõe dos recursos de desenvolvimento para fazer alterações em sua aplicação.

O ponto de integração 1 depende da escolha do cliente. Se você já tem uma solução de legendagem existente, mas precisa de idiomas de legenda adicionais não suportados pelas legendas embutidas, ou deseja expandir as soluções de closed captions ou legendas para serviços adicionais, recomendamos usar um serviço SaaS, no qual o custo é significativamente menor em comparação com soluções baseadas em hardware.

Estudos de caso de implementação

Vamos examinar um serviço de legendagem e dublagem ao vivo da SyncWords para ver como ele ajuda a integrar recursos de localização à transmissão ao vivo usando o AWS Media Services. A SyncWords se especializa em construir o pipeline de integração e remove o trabalho pesado para habilitar a localização, de modo que você pode escolher os serviços mais adequados para tarefas específicas. Por exemplo, você pode escolher voz clonada para fornecer áudio dublado com emoção, separação de voz e correspondência de tom, como Amazon Nova ou outros serviços de IA generativa para tradução de legendas.

Fluxo de trabalho seguro de incorporação 608 com baixa latência

A primeira opção usa a incorporação 608 para entregar legendas em até quatro idiomas simultaneamente, aproveitando os canais de legendas CC1, CC2, CC3 e CC4. Esta opção oferece inserção de legendas com baixa latência. O MediaLive converte as legendas embutidas em WebVTT para transmissão ao vivo HLS.

Figura 2: SyncWords – fluxo de trabalho baseado em SRT

O fluxo de trabalho baseado em SRT tem as seguintes limitações:

Conjunto de caracteres limitado: o SRT suporta apenas o conjunto básico de caracteres latinos, além de alguns caracteres estendidos e símbolos especiais
Opções de idioma restritas: devido a restrições de caracteres, o SRT suporta apenas inglês, espanhol, francês, português, italiano, alemão e holandês
Suporta até quatro idiomas simultâneos

O fluxo de trabalho baseado em SRT se beneficia do amplo suporte em sistemas atuais de transmissão e streaming ao vivo. O 608 é amplamente suportado, e as legendas embutidas podem usar o protocolo SRT para transporte seguro, permitindo o transporte flexível de produção, contribuição e distribuição de transmissão ao vivo.

Suporte a DVB Subtitle e DVB Teletext no fluxo de trabalho SRT

A SyncWords estendeu seu suporte de saída de subtítulos com opções Legenda DVB, DVB Teletext e DVB TTML. Com Legenda DVB e DVB Teletext, os clientes podem usar o MediaLive para processar a Legenda DVB para aplicações pass-through ou burn-in, e usar DVB Teletext para converter para WebVTT para streaming OTT.

Fluxo de trabalho de localização de vinculação tardia

À medida que cresce a demanda por transmissão ao vivo localizada em mais idiomas, outra opção para integrar legendas é adicionar faixas de legendas após a transcodificação. Por exemplo, no HTTP live streaming, o codificador escreve continuamente o arquivo de manifesto e os segmentos de mídia. O arquivo de manifesto principal é atualizado apenas após pelo menos 2–3 segmentos para garantir reprodução suave e buffering no lado do cliente. Aqui você pode aumentar a playlist com faixas de legendas em vários idiomas. A vinculação de legendas com assets de mídia transcodificados produz um ativo de mídia de streaming HLS integrado. Comparado ao workflow baseado em SRT, este é um mecanismo de “vinculação tardia” para combinar legendas e assets de mídia transcodificados após a transcodificação.O workflow de vinculação tardia oferece estes benefícios:

Suporta muitos idiomas, sem limitação real no número total de idiomas de legendas
Os assets de mídia combinados podem ser ingeridos por qualquer serviço de origem padrão, como o MediaPackage
Torna a distribuição independente de CDN e segura para players
Não requer alterações na CDN nem no player para suportar subtítulos em múltiplos idiomas

Figura 3: Fluxo de trabalho de inserção de legenda de vinculação tardia

Discutimos dois métodos de implementação diferentes para habilitar a localização e a acessibilidade de transmissão ao vivo; estas são soluções prontas para produção e implantáveis que muitos clientes da AWS implantam hoje. À medida que a indústria e a tecnologia evoluem, haverá melhorias para simplificar e otimizar ainda mais este fluxo de trabalho.

Conclusão

Neste guia, apresentamos insights abrangentes sobre como você pode implementar localização e acessibilidade de transmissão ao vivo usando o AWS Media Services e serviços de parceiros. Você aprendeu sobre múltiplas abordagens de integração, com os Pontos de Integração 2 e 3 emergindo como as soluções recomendadas para a maioria dos casos de uso. E sobre a importância das soluções baseadas em SaaS e das soluções atualmente implantáveis usando padrões atuais de legendas e subtítulos como CEA-608, DVB Subtitle, DVB Teletext e WebVTT. Embora as soluções atuais enfrentem algumas limitações, particularmente com o suporte a idiomas do protocolo 608, as tecnologias emergentes e os avanços em IA prometem simplificar a implementação e expandir os recursos de suporte a idiomas.

Use este guia como um recurso para organizações que buscam expandir seu alcance global por meio de conteúdo de streaming localizado para sindicação, transmissão aberta, publicação direta e streaming OTT ao vivo multilíngue.

Esse blog é uma tradução. Veja o original em: https://aws.amazon.com/blogs/media/live-streaming-localization-and-accessibility-using-aws-media-services/

Autores

Chris Zhang

Chris é um Arquiteto de Soluções Especialista Sênior na AWS, com foco em Serviços de Mídia para ajudar clientes a modernizar e arquitetar cargas de trabalho de mídia. Ele trabalha em parceria com clientes e parceiros da AWS para co-criar soluções inovadoras que proporcionam experiências excepcionais aos usuários em casos de uso de mídia e entretenimento.

Gavin Guzman

Gavin lidera clientes corporativos através de desafios estratégicos como Gerente de Soluções para Clientes (CSM) na AWS. Apaixonado por tecnologia, ele acredita que os maiores desafios do mundo podem ser enfrentados ao fornecer as ferramentas certas para líderes inovadores.

Tradutor

João Seike

Joao é Arquiteto de Soluções na AWS Brasil, especializado em atender clientes do setor de Mídia e Entretenimento. Ele ajuda empresas a transformar suas operações por meio de arquiteturas em nuvem escaláveis e inovadoras.

O blog da AWS