O blog da AWS

Novo — simplifique as tarefas de análise de mídia com o Amazon Rekognition Video

Por Venkatesh Bagaria, Brandon Dold e Alex Burkleaux 

 

Amazon Rekognition Vídeo   é um serviço baseado em aprendizado de máquina (ML) que pode analisar vídeos para identificar objetos, pessoas, rostos, textos, cenas e atividades, além de detectar qualquer conteúdo inadequado. A partir de hoje, você pode simplificar as tarefas de análise de mídia automatizando a detecção de molduras pretas, créditos finais, alterações de captura e barras de cores usando o Amazon Rekognition Video. Ao automatizar essas tarefas, você pode reduzir o tempo, o esforço e os custos associados a fluxos de trabalho, como inserção de anúncios em vídeo, operações de conteúdo e produção de conteúdo.

 

Desafios com análise de mídia

Os espectadores estão assistindo mais conteúdo do que nunca, com plataformas Over-The-Top (OTT) e Video-On-Demand (VOD), em particular, fornecendo uma rica seleção de opções de conteúdo a qualquer hora, em qualquer lugar e em qualquer tela. Os clientes de mídia nos disseram que, com a proliferação de volumes de conteúdo, eles estão enfrentando desafios na preparação e gerenciamento de conteúdo, que são cruciais para fornecer uma experiência de visualização de alta qualidade e melhor rentabilizar o conteúdo. Hoje, as empresas usam grandes equipes de forças de trabalho humanas treinadas para executar tarefas como descobrir onde os créditos finais começam em um episódio, escolher os pontos certos para inserir anúncios ou dividir vídeos em clipes menores para melhor indexação. Esses processos manuais são caros, lentos e não podem ser dimensionados para acompanhar o volume de conteúdo produzido, licenciado e recuperado de arquivos diariamente.

 

Apresentação do Amazon Rekognition Video para análise de mídia

Amazon Rekognition Video facilita la automatización de estas tareas de análisis de medios operativos al proporcionar API totalmente administradas y diseñadas específicamente con tecnología ML. Con estas API, puede analizar fácilmente grandes volúmenes de vídeos almacenados en   Amazon S3   , detecte marcadores como fotogramas negros o cambios de disparo y obtenga códigos de tiempo y marcas de tiempo SMPTE (Society of Motion Picture and Television Engineers) para cada detección, sin necesidad de ninguna experiencia de aprendizaje automático. Los códigos de tiempo SMPTE devueltos son precisos de fotogramas, lo que significa que Amazon Rekognition Video proporciona el número exacto de fotogramas cuando detecta un segmento relevante de vídeo y maneja varios formatos de velocidad de fotogramas de vídeo bajo el capó. Con los metadatos precisos de fotogramas de Amazon Rekognition Video, puede automatizar ciertas tareas completamente o reducir significativamente la carga de trabajo de revisión de los operadores humanos capacitados para que puedan centrarse en un trabajo más creativo. Esto le permite realizar tareas como la preparación de contenido, la inserción de anuncios y la adición de ‘marcadores de binge-markers’ al contenido a escala en la nube. Con Amazon Rekognition Video, solo pagas por lo que usas. No hay tarifas mínimas, licencias ni compromisos iniciales.

 

Principais recursos

Vejamos cada recurso de análise de mídia, casos de uso comuns e algumas detecções de amostra retornadas pelo Amazon Rekognition Video. Para esta seção, estamos usando clipes de Big Buck Bunny (2008) e Lágrimas de Aço (2013), dois filmes de código aberto feitos pelo Blender Institute, e distribuídos sob Licença Creative Commons 3.0.
Detecção de quadros pretos: Os vídeos geralmente contêm uma curta duração de quadros pretos vazios sem áudio que são usados como sugestões para inserir anúncios ou para demarcar o final de um segmento de programa, como uma cena ou os créditos de abertura. Com o Amazon Rekognition Video, você pode detectar essas sequências de quadros pretos para automatizar a inserção de anúncios, empacotar conteúdo para VOD e demarcar vários segmentos ou cenas de programas. Os quadros pretos com áudio (como fade outs ou narrações) são considerados como conteúdo e não retornados.

 

 

Detecção de créditos finais: O Amazon Rekognition Video ajuda você a identificar automaticamente os quadros exatos em que os créditos de fechamento começam e terminam para um filme ou programa de TV. Com essas informações, você pode gerar marcadores para prompts interativos do visualizador, como ‘Próximo episódio’ em aplicativos VOD, ou descobrir o último quadro de conteúdo do programa em um vídeo. O Amazon Rekognition Video é treinado para lidar com uma grande variedade de estilos de crédito final, desde créditos simples e créditos mais desafiadores ao lado do conteúdo, e exclui a abertura de créditos automaticamente.

 

 

Detecção de tiro: Um tiro é uma série de fotos consecutivas inter-relacionadas tiradas contíguamente por uma única câmera e representando uma ação contínua no tempo e no espaço. Com o Amazon Rekognition Video, você pode detectar o início, fim e duração de cada foto, bem como uma contagem de todas as fotos em um pedaço de conteúdo. Metadados de captura podem ser usados para aplicativos como a criação de vídeos promocionais usando tiros selecionados, gerar um conjunto de miniaturas de visualização que evitam conteúdo transitório entre tiros e inserir anúncios em pontos que não interrompem a experiência do visualizador, como o meio de uma foto quando alguém está falando.

 

 

Detecção de barras de cor:  O Amazon Rekognition Video permite detectar seções de vídeo que exibem barras de cores SMPTE, que são um conjunto de cores exibidas em padrões específicos para garantir que a cor seja calibrada corretamente em monitores de transmissão, programas e câmeras. Esses metadados são úteis para preparar o conteúdo para aplicativos VOD removendo segmentos de barra de cores do conteúdo ou para detectar problemas como perda de sinais de transmissão em uma gravação, quando as barras de cores são mostradas continuamente como um sinal padrão em vez de conteúdo.

 

 

Um cronograma típico para um ativo de vídeo na cadeia de suprimentos de mídia pode ser semelhante ao seguinte (observe as barras de cores no início, os quadros pretos em todo o vídeo e os créditos finais no final). Com o Amazon Rekognition Video, você pode detectar cada um desses segmentos automaticamente e obter códigos de tempo iniciais e finais precisos do quadro.

 

 

Como funciona

Esses recursos de análise de mídia estão disponíveis por meio do Amazon Rekognition Video   API de detecção de segmentos   . Este é um   API assíncrona   composto por duas operações:   StartSegmentDetection   para iniciar a análise, e   GetSegmentDetection   para obter os resultados da análise. Vamos entender cada uma dessas operações com mais detalhes.

 

 Iniciando a detecção do segmento

 StartSegmentDetection  aceita um vídeo H.264 armazenado em   Amazon S3   juntamente com parâmetros de entrada, e retorna um único  jobiD  após a conclusão bem sucedida. Recomendamos usar uma versão de ‘proxy’ de 720p ou 1080p do seu conteúdo para obter melhores resultados. Se você tiver arquivos fonte de alta resolução em formatos como Apple ProRes ou MXF, você pode usar   AWS Elemental MediaConvert   para transcodificá-los para H.264 primeiro. Veja a seguir um exemplo de solicitação JSON para  StartSegmentDetection:

 

{

    «Vídeo»: {

        «S3Object»: {

            «Cubo»: «test_files»,

            «Nombre»: "test_file.mp4»

        },

        «ClientRequestToken»: «SegmentDetectionToken»,

        «NotificationChannel»: {

            «snstopiCarn»: «arn:aws:sns:us-east- 1:111122223333:AmazonRekognitionSegmentationTopic»,

            «RoLearn»: «arn:aws:iam። 111122223333:role/rekVideoServiceRole»

        },

        «JobTag»: «SegmentingVideo»,

        «SegmentTypes»: [

            «TECHNICAL_CUE»,

            «DISPARO»

        ],

        «Filtros»: {

            «TechniCalcueFilter»: {

                «MinSegmentConfidence»: 90.0

            },

            «ShotFilter»: {

                «MinSegmentConfidence»: 80.0

            }

        }

    }

}

JSON

 

Quadros pretos, barras de cores e créditos finais são coletivamente chamados de “dicas técnicas”. Ao escolher valores diferentes para  SegmentTypes  , você pode detectar dicas técnicas, tiros ou ambos  .  No exemplo acima, tanto as dicas técnicas quanto os tiros serão detectados. Cada detecção também contém uma pontuação de confiança de previsão. Especificando  MinsegmentConfiança  filtros, você pode filtrar detecções que não atendem ao seu limite de confiança. Por exemplo, definir um limite de 90% para Technical Cues irá filtrar todos os resultados cuja confiança esteja abaixo de 90%.

 

Obtendo resultados de detecção de segmentos

Usando o  jobiD  obtido a partir do  StartSegmentDetection  ligar, agora você pode ligar  GetSegmentDetection  . Esta API leva no  JobiD,  e o número máximo de resultados que você deseja. Em seguida, ele retorna resultados para a análise solicitada, bem como metadados gerais sobre o vídeo armazenado. Aqui está como um  GetSegmentDetection  pedido se parece com:

 

{




    «JoBid»: «270c1cc5e1d0ea2fbc59d97cb69a72a5495da75851976b14a1784ca90fc180e3",

    «MaxResults»: 10,

    ...

}

JSON

E aqui está uma amostra de resposta de  GetSegmentDetection  :


  «JobStatus»: «CORRECTO»,

    «VideoMetadata»: [

        {

            «Códec»: «h264",

            «DurationMillis»: 478145,

            «Formato»: «QuickTime/MOV»,

            «FrameTate»: 24.0,

            «FrameHeight»: 360,

            «FrameWidth»: 636

        }

    ],

    «AudioMetadata»: [

        {

            «Códec»: «aac»,

            «DuraciónMillis»: 478214,

            «SampleRate»: 44100,

            «NumberOfChannels»: 2

        }

    ],

    «Segmentos»: [

        {

            «Tipo»: «TECHNICAL_CUE»,

            «StartTimEstampMillis»: 121666,

            «EndTimEstampMillis»: 471333,

            «DurationMillis»: 349667,

            «startTimeCodeSmpte»: "00:02:01:16 «,

            «EndTimeCodeSmpte»: "00:07:51:08 «,

            «DurationSmpte»: "00:05:49:16 «,

            «TechniCalcueSegment»: {

                «Tipo»: «EndCredits»,

                «Confianza»: 84.85398864746094

            }

        },

        {

            «Tipo»: «SHOT»,

            «StartTimEstampMillis»: 0,

            «EndTimEstampMillis»: 29041,

            «DurationMillis»: 29041,

            «StartTimeCodeSmpte»: "00:00:00:00 «,

            «EndTimeCodeSmpte»: "00:00:29:01 «,

            «DurationSmpte»: "00:00:29:01 «,

            «ShotSegment»: {

                «Índice»: 0,

                «Confianza»: 87.50452423095703

            }

        },

    ],

    «SelectedSegmentTypes»: [

        {

            «Tipo»: «SHOT»,

            «ModelVersion»: «1.0"

        },

        {

            «Tipo»: «TECHNICAL_CUE»,

            «ModelVersion»: «1.0"

        }

    ]

}

JSON

 

Como você pode ver, cada detecção contém o início, o fim, a duração e a confiança de um tipo de segmento. O Amazon Rekognition Video fornece códigos de tempo SMPTE precisos de quadros e carimbos de data/hora de milissegundos, além de lidar com diferentes tipos de padrões de taxa de quadros, como número inteiro (por exemplo, 25 fps), fracionário (por exemplo, 23.976 fps) e drop-frame (por exemplo, 29,97 fps). Os tiros também têm um  Índice  para manter uma contagem do número de tiros decorridos em um determinado ponto de um vídeo.

 

Historias de clientes

Os clientes nos disseram que eles podem usar esses novos recursos para análise de mídia para simplificar os fluxos de trabalho de inserção de anúncios em vídeo, produção de conteúdo e operação de conteúdo. A seguir estão alguns exemplos de como os clientes estão derivando valor dos recursos.

 

 

 

Redes A+E®   é uma coleção de marcas culturais que inclui A&E®, HISTORY®, Lifetime®, LMN™, FYI™, Vice TV e BIOGRAPHY®. Estamos em sete das 10 casas americanas, atingimos cumulativamente 335 milhões de pessoas em todo o mundo e temos mais de 500 milhões de usuários digitais.

“A A+E Networks recebe milhares de horas de nova programação a cada ano, com cada arquivo passando por dezenas de fluxos de trabalho automatizados para chegar às pessoas certas no momento certo. No entanto, essa automação é frequentemente dificultada por um desafio fundamental — identificar onde cada segmento dentro do arquivo começa ou termina. Nossos técnicos devem primeiro visualizar o arquivo de vídeo e, em seguida, inserir manualmente cada timecode para permitir processos automatizados, como transcodificação e controle de qualidade. Com os metadados do Amazon Rekognition Video, agora temos a capacidade de tomar decisões rápidas e automatizadas sobre o conteúdo assim que ele chegar. Saber onde os segmentos começam ou param com timecodes informados em dados permite decisões anteriores da cadeia de suprimentos de mídia, como o comprimento para fazer um rastreador preliminar que começa a partir do primeiro quadro após barras de cores ou ardósia, eliminando lesmas e terminando antes dos créditos. Isso tem o potencial de nos ajudar a melhorar a qualidade de nossa produção, economizar centenas de horas de trabalho a cada ano e responder rapidamente em um mercado de conteúdo altamente dinâmico.”

 

 

 

Nômade é uma plataforma de gerenciamento de conteúdo inteligente nativa da nuvem criada com base na arquitetura sem servidor da AWS, que mescla perfeitamente o gerenciamento de conteúdo e ativos com o poder da AI/ML em um sistema unificado.

“A Plataforma Nomad aproveita a análise de nível de captura de vídeo e segmento para detectar, gerar e pesquisar metadados ricos para objetos, pessoas, rótulos, diálogo e texto de tela. Analisar o vídeo e detectar as fotos discretas com precisão tem sido muito desafiador, e até este ponto, usamos um analisador de tiro personalizado interno para separar o vídeo nos segmentos pesquisáveis. Com os novos recursos do Amazon Rekognition Video para análise de mídia, nossa precisão de detecção de tiro dobrou e obtemos o benefício adicional de detectar outros tipos de segmentos, como molduras pretas e créditos finais automaticamente. Maior precisão de detecção de tiro e tipos de segmentos recém-detectáveis na plataforma Nomad nos permitem melhorar significativamente a experiência de pesquisa do usuário e reduzir substancialmente os custos do cliente, evitando processamento de metadados adicional que era necessário anteriormente.”

 

 

 

Promomii é uma empresa de software de geração promocional e registro de vídeo alimentado por IA que ajuda os criativos a maximizar o potencial de seus vídeos.

“Editores e produtores da indústria de radiodifusão e vídeo criativo gastam enormes quantidades de tempo passando por grandes volumes de imagens de vídeo para produzir conteúdo. Este processo é monótono, demorado e caro. Promomii visa agilizar esse trabalho intensivo em mão-de-obra, fornecendo uma análise de vídeo precisa e completa para nossos clientes, para que eles possam alocar mais recursos para o trabalho criativo. Combinando recursos do Amazon Rekognition Video, como detecção de tiro com os próprios algoritmos do PromoMii, podemos fornecer aos editores de forma rápida e fácil as fotos visuais mais interessantes ou valiosas durante seu processo criativo e ajudá-los a vender melhor o conteúdo em menor tempo.”

 

 

Sincronizado transforma o vídeo passivo e linear em ‘Smart-Video’. Nosso mecanismo de inteligência artificial entende o conteúdo e o contexto de um vídeo e enriquece-o com metadados. Esses metadados liberam o vídeo da linearidade, tornando-o totalmente interativo e tão poderoso quanto o hipertexto para atender às demandas e expectativas do mundo digital.

“Hoje, os canais de televisão, impulsionados pelas demandas dos consumidores digitais, precisam adaptar o conteúdo tradicional e de longo formato produzido para TV linear em segmentos de formato curto para satisfazer o consumo on-line. Segmentar e recortar conteúdo editorialmente é importante para as emissoras para que os espectadores possam acessar diretamente as partes que são interessantes para eles. A plataforma sincronizada automatiza o fluxo de trabalho completo necessário para segmentar, cortar e distribuir conteúdo de vídeo para emissoras. No entanto, a transformação precisa e automática de conteúdos audiovisuais em segmentos editoriais é uma tarefa extremamente complexa que requer camadas de diferentes técnicas. Mas agora, ao combinar o Amazon Rekognition Video com o serviço Smart-Segmentation da nossa plataforma, podemos acelerar, simplificar e automatizar significativamente a criação e a entrega de clipes com precisão para as equipes editoriais da TV. Eles podem então manipular os segmentos sem exigir especialistas e distribuí-los imediatamente. Este processo não é escalável se feito manualmente. Além disso, a capacidade de detectar automaticamente créditos finais com o Amazon Rekognition Video nos permite oferecer aos nossos clientes uma solução totalmente automatizada e pronta para adicionar recursos como botões “Next Episode” aos seus catálogos de conteúdo”.

 

Começando

Você pode começar a usar APIs de detecção de segmento de vídeo baixando o mais recente AWS SDK. Por favor, consulte nossa documentação  para obter mais detalhes sobre a API e exemplos de código.

Se você quiser visualizar os resultados da análise de mídia ou até mesmo experimentar outros serviços de IA da Amazon, como o Amazon Transcribe com seus próprios vídeos, não se esqueça de verificar o Mecanismo de insights de mídia (MIE) — uma estrutura sem servidor para gerar insights com facilidade e desenvolver aplicativos para seus recursos de vídeo, áudio, texto e imagem, usando os serviços de aprendizado de máquina e mídia da AWS. Você pode facilmente ativar sua própria instância MIE usando o modelo fornecido do AWS CloudFormation e, em seguida, usar o aplicativo de exemplo vinculado na guia “Saídas” do console do AWS CloudFormation para testar seus próprios vídeos e visualizar os resultados da análise. Está aqui como o console do aplicativo de exemplo MIE se parece com:

 

 

Conclusão e Recursos Adicionais

Neste blog, introduzimos novos recursos do Amazon Rekognition Video para análise de mídia, discutimos os principais benefícios, vimos alguns exemplos para a detecção de molduras pretas, créditos finais, alterações de tiro e barras de cores, descrevemos como funciona e como os clientes estão usando e fornecemos alguns exemplos de API. Para saber mais, você pode ler   nossa documentação   e confira o Mecanismo de insights de mídia.

 

Este artículo fue traducido del Blog de AWS en Inglés

 


Sobre os autores

Venkatesh Bagaria é Gerente de Produto Principal da Amazon Rekognition. Ele se concentra na criação de serviços de análise de imagem e vídeo baseados em aprendizado profundo poderosos, mas fáceis de usar para clientes da AWS. Em seu tempo livre, você vai encontrá-lo assistindo muitos especiais de comédia stand-up e filmes, cozinhar comida indiana picante, e tentando fingir que ele pode tocar guitarra.

 

 

 

Brandon Dold é Engenheiro Técnico de Marketing da Amazon Web Services. Ele tem ampla experiência no setor em aprendizado de máquina, engenharia de sistemas e desenvolvimento de aplicativos sem servidor.

 

 

 

 

Alex Burkleaux é Engenheira Técnico de Marketing do AWS Elemental. Sua experiência no setor inclui vídeos, sistemas de gerenciamento de banco de dados e engenharia de confiabilidade.