Nuevo — Optimice las tareas de análisis de medios con Amazon Rekognition Video

Por Venkatesh Bagaria, Brandon Dold y Alex Burkleaux

Vídeo de Amazon Rekognition es un servicio basado en aprendizaje automático (ML) que puede analizar vídeos para identificar objetos, personas, caras, texto, escenas y actividades, así como detectar cualquier contenido inapropiado. A partir de hoy, puede optimizar las tareas de análisis multimedia automatizando la detección de fotogramas negros, créditos finales, cambios de disparo y barras de color con Amazon Rekognition Video. Al automatizar estas tareas, puede reducir el tiempo, el esfuerzo y los costos asociados con flujos de trabajo como la inserción de anuncios de vídeo, las operaciones de contenido y la producción de contenido.

Desafíos con el análisis de medios

Los espectadores están viendo más contenido que nunca, con las plataformas Over-The-Top (OTT) y Vídeo bajo demanda (VOD), en particular, que ofrecen una amplia selección de opciones de contenido en cualquier momento, lugar y en cualquier pantalla. Los clientes de medios nos han dicho que, con la proliferación de volúmenes de contenido, se enfrentan a desafíos en la preparación y administración del contenido, que son cruciales para proporcionar una experiencia de visualización de alta calidad y una mejor monetización del contenido. Hoy en día, las empresas utilizan grandes equipos de personal capacitado para realizar tareas como encontrar dónde comienzan los créditos finales en un episodio, elegir los lugares adecuados para insertar anuncios o dividir videos en clips más pequeños para mejorar la indexación. Estos procesos manuales son costosos, lentos y no pueden escalarse para mantenerse al día con el volumen de contenido que se produce, se otorga licencia y se recupera de los archivos diariamente.

Presentación del vídeo de Amazon Rekognition para el análisis de medios

Amazon Rekognition Video facilita la automatización de estas tareas de análisis de medios operativos al proporcionar API totalmente administradas y diseñadas específicamente con tecnología ML. Con estas API, puede analizar fácilmente grandes volúmenes de vídeos almacenados en Amazon S3 , detecte marcadores como fotogramas negros o cambios de disparo y obtenga códigos de tiempo y marcas de tiempo SMPTE (Society of Motion Picture and Television Engineers) para cada detección, sin necesidad de ninguna experiencia de aprendizaje automático. Los códigos de tiempo SMPTE devueltos son precisos de fotogramas, lo que significa que Amazon Rekognition Video proporciona el número exacto de fotogramas cuando detecta un segmento relevante de vídeo y maneja varios formatos de velocidad de fotogramas de vídeo bajo el capó. Con los metadatos precisos de fotogramas de Amazon Rekognition Video, puede automatizar ciertas tareas completamente o reducir significativamente la carga de trabajo de revisión de los operadores humanos capacitados para que puedan centrarse en un trabajo más creativo. Esto le permite realizar tareas como la preparación de contenido, la inserción de anuncios y la adición de ‘marcadores de binge-markers’ al contenido a escala en la nube. Con Amazon Rekognition Video, solo pagas por lo que usas. No hay tarifas mínimas, licencias ni compromisos iniciales.

Funciones clave

Veamos cada función de análisis de medios, casos de uso comunes y algunas detecciones de muestra devueltas por Amazon Rekognition Video. Para esta sección, estamos utilizando clips de Gran Buck Bunny (2008) y Lágrimas de acero (2013), dos películas de código abierto realizadas por el Blender Institute y distribuidas bajo licencia Creative Commons 3.0.

Detección de fotogramas negros: Los vídeos suelen contener una corta duración de fotogramas negros vacíos sin audio que se utilizan como señales para insertar anuncios, o para delimitar el final de un segmento de programa, como una escena o los créditos de apertura. Con Amazon Rekognition Video, puede detectar esas secuencias de fotogramas negros para automatizar la inserción de anuncios, empaquetar contenido para VOD y delimitar varios segmentos o escenas del programa. Los fotogramas negros con audio (como fundido out o voiceovers) se consideran contenido y no se devuelven.

Detección de créditos finales: Amazon Rekognition Video le ayuda a identificar automáticamente los fotogramas exactos en los que comienzan y terminan los créditos de cierre de una película o programa de televisión. Con esta información, puede generar marcadores para mensajes interactivos del visor como «Siguiente episodio» en aplicaciones VOD, o averiguar el último fotograma de contenido del programa en un vídeo. Amazon Rekognition Video está capacitado para manejar una amplia variedad de estilos de crédito final, que van desde simples créditos rotativos hasta créditos más exigentes junto con el contenido, y excluye la apertura automática de créditos.

Detección de disparos: Una toma es una serie de imágenes consecutivas interrelacionadas tomadas contiguamente por una sola cámara y que representan una acción continua en el tiempo y el espacio. Con Amazon Rekognition Video, puede detectar el inicio, el final y la duración de cada toma, así como un recuento de todas las tomas de un fragmento de contenido. Los metadatos de instantáneas se pueden utilizar para aplicaciones como la creación de vídeos promocionales mediante capturas seleccionadas, la generación de un conjunto de miniaturas de vista previa que evitan el contenido transicional entre tomas y la inserción de anuncios en lugares que no interrumpen la experiencia del espectador, como la mitad de una toma cuando alguien habla.

Detección de barras de color: Amazon Rekognition Video le permite detectar secciones de vídeo que muestran barras de color SMPTE, que son un conjunto de colores que se muestran en patrones específicos para garantizar que el color se calibre correctamente en monitores de difusión, programas y cámaras. Estos metadatos son útiles para preparar contenido para aplicaciones VOD eliminando segmentos de barras de color del contenido, o para detectar problemas como la pérdida de señales de difusión en una grabación, cuando las barras de color se muestran continuamente como señal predeterminada en lugar de contenido.

Una línea de tiempo típica para un activo de vídeo en la cadena de suministro de medios podría tener el siguiente aspecto (tenga en cuenta las barras de color al principio, los fotogramas negros a lo largo del vídeo y los créditos finales al final). Con Amazon Rekognition Video, puede detectar cada uno de estos segmentos automáticamente y obtener códigos de tiempo de inicio y finalización precisos de fotogramas.

Cómo funciona

Estas funciones de análisis de medios están disponibles a través de Amazon Rekognition Video API de detección de segmentos . Este es un API asíncrona compuesto por dos operaciones: StartSegmentDetección para iniciar el análisis, y GetSegmentDetection para obtener los resultados del análisis. Vamos a entender cada una de estas operaciones con más detalle.

Detección de segmento inicial

StartSegmentDetección acepta un vídeo H.264 almacenado en Amazon S3 junto con los parámetros de entrada, y devuelve un JoBid una vez finalizada con éxito. Recomendamos utilizar una versión ‘proxy’ de 720p o 1080p de su contenido para obtener los mejores resultados. Si tienes archivos fuente de alta resolución en formatos como Apple ProRes o MXF, puedes usar AWS Elemental MediaConvert para transcodificarlos primero a H.264. El siguiente es un ejemplo de solicitud JSON para StartSegmentDetection:

{

    «Vídeo»: {

        «S3Object»: {

            «Cubo»: «test_files»,

            «Nombre»: "test_file.mp4»

        },

        «ClientRequestToken»: «SegmentDetectionToken»,

        «NotificationChannel»: {

            «snstopiCarn»: «arn:aws:sns:us-east- 1:111122223333:AmazonRekognitionSegmentationTopic»,

            «RoLearn»: «arn:aws:iam። 111122223333:role/rekVideoServiceRole»

        },

        «JobTag»: «SegmentingVideo»,

        «SegmentTypes»: [

            «TECHNICAL_CUE»,

            «DISPARO»

        ],

        «Filtros»: {

            «TechniCalcueFilter»: {

                «MinSegmentConfidence»: 90.0

            },

            «ShotFilter»: {

                «MinSegmentConfidence»: 80.0

            }

        }

    }

}

JSON

Los marcos negros, las barras de color y los créditos finales se denominan colectivamente «Tacos técnicos». Al elegir diferentes valores para SegmentTypes , puede detectar señales técnicas, disparos o ambos . En el ejemplo anterior, tanto las señales técnicas como los disparos serán detectados. Cada detección también contiene una puntuación de confianza de predicción. Mediante la especificación MinSegmentConfidence , puede filtrar las detecciones que no cumplan su umbral de confianza. Por ejemplo, establecer un umbral del 90% para las señales técnicas filtrará todos los resultados cuya confianza sea inferior al 90%.

Obtener resultados de detección de segmentos

Utilizando el JoBid obtenidas a partir del StartSegmentDetección , ahora puede llamar GetSegmentDetection . Esta API toma en el JoBid, y el número máximo de resultados que desea. A continuación, devuelve resultados para el análisis solicitado, así como metadatos generales sobre el vídeo almacenado. Así es como un GetSegmentDetection solicitud se ve así:

{




    «JoBid»: «270c1cc5e1d0ea2fbc59d97cb69a72a5495da75851976b14a1784ca90fc180e3",

    «MaxResults»: 10,

    ...

}

JSON

Y aquí hay una respuesta de muestra de  GetSegmentDetection  :

  «JobStatus»: «CORRECTO»,

    «VideoMetadata»: [

        {

            «Códec»: «h264",

            «DurationMillis»: 478145,

            «Formato»: «QuickTime/MOV»,

            «FrameTate»: 24.0,

            «FrameHeight»: 360,

            «FrameWidth»: 636

        }

    ],

    «AudioMetadata»: [

        {

            «Códec»: «aac»,

            «DuraciónMillis»: 478214,

            «SampleRate»: 44100,

            «NumberOfChannels»: 2

        }

    ],

    «Segmentos»: [

        {

            «Tipo»: «TECHNICAL_CUE»,

            «StartTimEstampMillis»: 121666,

            «EndTimEstampMillis»: 471333,

            «DurationMillis»: 349667,

            «startTimeCodeSmpte»: "00:02:01:16 «,

            «EndTimeCodeSmpte»: "00:07:51:08 «,

            «DurationSmpte»: "00:05:49:16 «,

            «TechniCalcueSegment»: {

                «Tipo»: «EndCredits»,

                «Confianza»: 84.85398864746094

            }

        },

        {

            «Tipo»: «SHOT»,

            «StartTimEstampMillis»: 0,

            «EndTimEstampMillis»: 29041,

            «DurationMillis»: 29041,

            «StartTimeCodeSmpte»: "00:00:00:00 «,

            «EndTimeCodeSmpte»: "00:00:29:01 «,

            «DurationSmpte»: "00:00:29:01 «,

            «ShotSegment»: {

                «Índice»: 0,

                «Confianza»: 87.50452423095703

            }

        },

    ],

    «SelectedSegmentTypes»: [

        {

            «Tipo»: «SHOT»,

            «ModelVersion»: «1.0"

        },

        {

            «Tipo»: «TECHNICAL_CUE»,

            «ModelVersion»: «1.0"

        }

    ]

}

JSON

Como puede ver, cada detección contiene el inicio, el final, la duración y la confianza de un tipo de segmento. Amazon Rekognition Video proporciona códigos de tiempo SMPTE precisos de fotogramas y marcas de tiempo de milisegundos, y maneja diferentes tipos de estándares de velocidad de fotogramas, como enteros (por ejemplo, 25 fps), fraccionarios (por ejemplo, 23.976 fps) y fotogramas (por ejemplo, 29,97 fps). Los disparos también tienen un Índice para mantener un recuento del número de tomas transcurridas en un momento determinado de un vídeo.

Historias de clientes

Los clientes nos han dicho que pueden utilizar estas nuevas funciones para el análisis de medios para simplificar la inserción de anuncios de vídeo, la producción de contenido y los flujos de trabajo de operación de contenido. A continuación se presentan algunos ejemplos de cómo los clientes están obteniendo valor de las características.

A+E Networks® es una colección de marcas culturales que incluye A&E®, HISTORY®, Lifetime®, LMN™, FYI™, Vice TV y BIOGRAPHY®. Estamos en siete de cada 10 hogares estadounidenses, llegamos acumulativamente a 335 millones de personas en todo el mundo y tenemos más de 500 millones de usuarios digitales.

«A+E Networks recibe miles de horas de nueva programación cada año, con cada archivo pasando por docenas de flujos de trabajo automatizados para llegar a las personas adecuadas en el momento adecuado. Sin embargo, a menudo esta automatización se ve obstaculizada por un desafío clave: identificar dónde comienza o termina cada segmento dentro del archivo. Nuestros técnicos primero deben ver el archivo de vídeo y luego introducir manualmente cada código de tiempo para permitir procesos automatizados como la transcodificación y el control de calidad. Con los metadatos de Amazon Rekognition Video, ahora tenemos la capacidad de tomar decisiones rápidas y automatizadas sobre el contenido tan pronto como llegue. Saber dónde empiezan o paran los segmentos con códigos de tiempo informados sobre datos permite tomar decisiones anteriores de la cadena de suministro de medios, como la longitud de hacer un protector preliminar que comienza desde el primer fotograma después de las barras de color o pizarra, eliminando las babosas y terminando antes de los créditos. Esto tiene el potencial de ayudarnos a mejorar la calidad de nuestros productos, ahorrar cientos de horas de trabajo cada año y responder rápidamente en un mercado de contenido altamente dinámico».

Nómada es una plataforma de gestión de contenido inteligente nativa de la nube basada en la arquitectura sin servidor de AWS, que combina a la perfección la gestión de contenido y activos con la potencia de AI/ML en un solo sistema unificado.

«Nomad Platform aprovecha el análisis de nivel de segmento y captura de vídeo para detectar, generar y buscar metadatos enriquecidos para objetos, personas, etiquetas, diálogos y texto de pantalla. Analizar el vídeo y detectar las tomas discretas con precisión ha sido muy difícil, y hasta este punto, hemos utilizado un analizador de tomas personalizado interno para separar el vídeo en los segmentos en los que se pueden buscar. Con las nuevas funciones de Amazon Rekognition Video para el análisis de medios, nuestra precisión de detección de disparos se ha duplicado, y obtenemos la ventaja adicional de detectar otros tipos de segmentos como fotogramas negros y créditos finales automáticamente. La mayor precisión de detección de disparos y los nuevos tipos de segmentos detectables en la Plataforma Nomad nos permiten mejorar enormemente la experiencia de búsqueda del usuario y reducir sustancialmente los costos de los clientes al evitar el procesamiento adicional de metadatos que se requería anteriormente».

Promomii es una empresa de software de generación de promociones y registro de vídeo impulsado por IA que ayuda a las creatividades a maximizar el potencial de sus vídeos.

«Los editores y productores de la industria de la radiodifusión y el vídeo creativo dedican grandes cantidades de tiempo a través de grandes volúmenes de video para producir contenido. Este proceso es monótono, consume mucho tiempo y es costoso. Promomii tiene como objetivo agilizar este trabajo intensivo de mano de obra proporcionando análisis de vídeo preciso y exhaustivo para nuestros clientes, para que puedan asignar más recursos al trabajo creativo. Al combinar las funciones de Amazon Rekognition Video, como la detección de tomas con los algoritmos propios de PromoMii, podemos proporcionar rápida y fácilmente a los editores las tomas visuales más interesantes o valiosas durante su proceso creativo y ayudarles a vender el contenido mejor en menor tiempo».

Sincronizado transforma el vídeo pasivo y lineal en «Smart-Video». Nuestro motor de inteligencia artificial entiende el contenido y el contexto de un vídeo y lo enriquece con metadatos. Estos metadatos liberan el vídeo de la linealidad haciéndolo totalmente interactivo y tan poderoso como el hipertexto para satisfacer las demandas y expectativas del mundo digital.

«Hoy en día, los canales de televisión, impulsados por las demandas de los consumidores digitales, necesitan adaptar el contenido tradicional de formato largo producido para la televisión lineal en segmentos de formato corto para satisfacer el consumo en línea. Segmentar y recortar contenido editorialmente es importante para los broadcasters para que los espectadores puedan acceder directamente a las partes que les interesan. La plataforma sincronizada automatiza todo el flujo de trabajo necesario para segmentar, recortar y distribuir contenido de vídeo para los broadcasters. Sin embargo, la transformación precisa y automática del contenido audiovisual en segmentos editoriales es una tarea extremadamente compleja que requiere capas de diferentes técnicas. Pero ahora, al combinar Amazon Rekognition Video con el servicio de Segmentación Inteligente de nuestra plataforma, podemos acelerar, agilizar y automatizar significativamente la creación y entrega de clips de forma precisa a los equipos editoriales de televisión. A continuación, pueden manipular los segmentos sin requerir especialistas y distribuirlos inmediatamente. Este proceso no es escalable si se realiza manualmente. Además, la capacidad de detectar automáticamente créditos finales con Amazon Rekognition Video nos permite ofrecer a nuestros clientes una solución totalmente automatizada y llave en mano para añadir funciones como botones «Siguiente episodio» a sus catálogos de contenido».

Introducción

Puede comenzar a utilizar las API de detección de segmentos de vídeo descargando la última AWS SDK . Por favor, consulte nuestra documentación para obtener más detalles sobre la API y las muestras de código.

Si quieres visualizar los resultados del análisis multimedia o incluso probar otros servicios de IA de Amazon como Amazon Transcribe con tus propios vídeos, no olvides consultar la Motor de información multimedia (MIE): un marco sin servidor para generar información fácil y desarrollar aplicaciones para sus recursos de vídeo, audio, texto e imágenes mediante los servicios multimedia y de aprendizaje automático de AWS. Puede activar fácilmente su propia instancia MIE utilizando la plantilla de AWS CloudFormation suministrada y, a continuación, utilizar la aplicación de ejemplo vinculada en la pestaña «Salidas» de la consola de AWS CloudFormation para probar sus propios vídeos y visualizar los resultados del análisis. Así es como se ve la consola de aplicación de ejemplo MIE:

Conclusión y recursos adicionales

En este blog, presentamos las nuevas características de Amazon Rekognition Video para el análisis de medios, discutimos los principales beneficios, vimos algunos ejemplos para la detección de fotogramas negros, créditos finales, cambios de tomas y barras de color, describimos cómo funciona y cómo los clientes lo utilizan, y proporcionamos algunos ejemplos de API. Para obtener más información, puede leer nuestra documentación y echa un vistazo a la Motor de información multimedia.

Este artículo fue traducido del Blog de AWS en Inglés

Sobre los autores

Venkatesh Bagaria es Gerente de Producto Principal de Amazon Rekognition. Se centra en crear servicios de análisis de imágenes y vídeo basados en aprendizaje profundo, potentes pero fáciles de usar, para clientes de AWS. En su tiempo libre, lo encontrarás viendo demasiados especiales de comedia y películas, cocinando comida india picante y tratando de fingir que puede tocar la guitarra.

Brandon Dold es Ingeniero técnico de marketing de Amazon Web Services. Tiene amplia experiencia en la industria en aprendizaje automático, ingeniería de sistemas y desarrollo de aplicaciones sin servidor.

Alex Burkleaux es Ingeniera técnico de marketing para AWS Elemental. Su experiencia en el sector incluye vídeo, sistemas de gestión de bases de datos e ingeniería de confiabilidad.

Blog de Amazon Web Services (AWS)