Machine Learning pour les applications multimédias

Les différences entre le machine learning, l'intelligence artificielle et le deep learning

Le machine learning fait référence à l'utilisation d'algorithmes d'apprentissage qui créent un modèle de compréhension des relations entre les données existantes pour établir des prévisions sur les nouvelles données. Le terme machine learning est souvent utilisé de manière interchangeable avec l'intelligence artificielle, mais ces deux termes désignent en réalité des concepts connexes mais distincts.

L'intelligence artificielle est la capacité de détecter, d'apprendre, de raisonner, d'agir et de s'adapter au monde réel sans programmation explicite. Elle peut être définie de manière générale comme tout système capable de présenter un certain niveau d'intelligence humaine.

Ainsi, si l'intelligence artificielle représente le concept général de création de solutions qui permettent aux ordinateurs d'apprendre et de prendre des décisions sans instruction humaine explicite, le machine learning est la méthode que les développeurs adoptent pour créer ces fonctionnalités.

Le deep learning est le troisième terme qui est généralement utilisé pour parler du machine learning. Plutôt que d'utiliser des algorithmes mathématiques explicites, le deep learning tente de modéliser le fonctionnement et l'apprentissage du cerveau avec des systèmes appelés réseaux neuronaux.

Conclusion : il existe de nombreuses façons de créer un système capable de présenter des caractéristiques semblables à celles de l'être humain. Les systèmes basés sur des règles et ceux basés sur des connaissances ont chacun eu leur période de vaches grasses au cours des dernières décennies. Mais le machine learning est profondément ancré dans les statistiques, et c'est d'ailleurs pour cette raison que vous utiliseriez des outils et des services de machine learning pour créer des systèmes et des applications d'intelligence artificielle.

INTELLIGENCE ARTIFICIELLE

Détection, apprentissage, raisonnement, action et adaptation au monde réel sans programmation explicite.

MACHINE LEARNING

Méthodes de calcul qui utilisent des algorithmes d'apprentissage pour créer un modèle à partir de données (en mode supervisé, non supervisé, semi-supervisé ou renforcement).

DEEP LEARNING

Algorithmes inspirés de réseaux neuronaux pourvus de plusieurs couches de neurones qui apprennent de manière successive des représentations complexes. 

En quoi le machine learning dans le cloud est-il différent ?

La combinaison d'une énorme puissance de calcul, de lacs de données, de sécurités, de capacités d'analyse et de leur aptitude à s'intégrer aux services de cloud transforme le machine learning émanant d'une technologie expérimentale de niche en élément fondamental de l'entreprise.

De nos jours, les entreprises utilisent davantage d'outils de machine learning pour préparer des données à l'analyse, créer et affiner des modèles de machine learning, et tirer parti des applications cognitives des utilisateurs finaux, notamment la reconnaissance vocale, l'analyse d'images et de vidéos, l'établissement de prévisions et de recommandations, ainsi que de nombreuses autres solutions intelligentes.

Le machine learning dévoile ainsi de nouvelles informations, de nouvelles découvertes et de nouveaux gains d'efficacité grâce aux systèmes, processus et technologies de l'information qui régissent les activités quotidiennes. L'infrastructure de base qui sous-tend presque toutes les activités commerciales ou créatives peut être améliorée par les technologies de machine learning de manière à ajouter de la valeur aux résultats des travaux, ainsi qu'aux personnes et aux processus qui interagissent avec.

Cela est de plus en plus vrai pour les fournisseurs de vidéos dans l'industrie du multimédia et du divertissement, l'entreprise et le secteur public, autant de domaines dans lesquels le machine learning peut augmenter la valeur du contenu vidéo et créer des expériences exceptionnelles pour les téléspectateurs.

Pour les fournisseurs de vidéos en particulier, les applications vidéo des outils de machine learning du cloud sont nombreuses et continuent d'être développées et améliorées en permanence.

Quels avantages présentent le machine learning dans le cloud pour la vidéo ?

Les fournisseurs de vidéos modernes se posent tous un certain nombre de questions, dont notamment :

  • Quels acteurs sont en scène ?
  • Quand certains mots sont-ils prononcés ?
  • Quels objets apparaissent à l'écran ?
  • Une fois que nous connaissons l'existence de ces acteurs/scènes/mots/objets, comment pouvons-nous les retrouver lorsque nous en avons besoin ?

Le machine learning de vidéo dans le cloud propose une solution pratique pour répondre à chaque question. Here are a few ways it does it.

Archives vidéo consultables : grâce aux services de machine learning dans le cloud, les équipes en charge des vidéos peuvent réduire de manière considérable le temps et les ressources nécessaires au catalogage, à la recherche et à la création de ressources depuis leurs archives vidéo. L'indexation de contenu et la génération de métadonnées basées sur le machine learning peuvent permettre à un certain nombre d'applications de présenter des avantages concrets considérables.

Bon nombre de diffuseurs doivent par exemple conserver des archives de contenu vidéo importantes, provenant généralement de sources différentes et utilisant des systèmes incohérents, le cas échéant, pour le balisage des ressources. Grâce aux outils de machine learning, les tâches manuelles et fastidieuses de balisage de contenu dédiées à la recherche peuvent être éliminées et des bibliothèques de contenu vidéo peuvent être optimisées pour une recherche rapide et précise.

Sous-titres vidéo automatisés : les métadonnées de sous-titres sont essentielles pour rendre la vidéo utile et accessible à tous. Toutefois, le processus de transcription des ressources vidéo, de production et d'intégration de sous-titres précis dans les différents formats requis pour assurer leur accessibilité sur différents écrans et appareils, peut s'avérer particulièrement lent et onéreux. Le temps et les dépenses nécessaires deviennent de plus en plus exorbitants, lorsqu'une génération de sous-titres pour d'importants volumes de contenu est requise.

L'avènement d'outils de machine learning qui peuvent traiter et analyser des vidéos dans le cloud offre aux fournisseurs de contenu un processus puissant et évolutif qui permet d'automatiser le processus de création des sous-titres. Cela représente un gain de temps et de travail considérable pour les entreprises, telles que les fournisseurs de formation en ligne, qui disposent de milliers d'heures de vidéo et ont besoin de sous-titres pour répondre aux exigences d'accessibilité définies par leurs clients.

Génération de clips vidéo : traditionnellement, le processus de génération et de publication de clips vidéo nécessitait un workflow manuel pour identifier le contenu pertinent d'une vidéo brute, générer des clips horodatés, puis les transcoder, les combiner et les distribuer pour une publication sur les canaux sociaux.

Ce processus complexe en plusieurs étapes peut entraîner des retards et être synonyme d'occasions manquées, notamment pour la diffusion d'événements en direct. Désormais, les outils de machine learning peuvent automatiser les étapes clés du processus pour aider les diffuseurs à présenter des clips à forte valeur ajoutée sur les écrans des utilisateurs en temps quasi réel, ce qui est bien plus adapté au pouvoir d'immédiateté des réseaux sociaux.

Personnalisation et monétisation : pour optimiser les opportunités de revenus du streaming de vidéos, les fournisseurs de contenu doivent équiper leur infrastructure de manière à proposer une publicité ciblée aux utilisateurs individuels et diffusée de manière adaptée à chaque utilisateur, par exemple via des publicités personnalisées.

Grâce aux workflows de vidéo améliorés par le machine learning, les fournisseurs de contenu peuvent désormais insérer de manière transparente de la publicité personnalisée en fonction de différents facteurs, tels que le type d'appareil utilisé par la personne, des informations démographiques sur l'utilisateur ou même des informations sur le contenu en streaming ; c'est ce que l'on appelle l'insertion de publicité sensible au contenu.

Analyse et mesure : les workflows de vidéo actuels ont la capacité de mesurer et de rapporter des quantités apparemment infinies d'informations sur les flux en direct et VOD, ainsi que sur l'infrastructure qui les sous-tend. Les données relatives aux performances de composants individuels, de processus clés et de workflows complets peuvent être mesurées et utilisées pour des notifications en temps réel ou des analyses à long terme.

Pour identifier de nouvelles informations et découvertes, l'application des systèmes de machine learning offre aux fournisseurs de contenu de nouvelles façons d'optimiser chaque aspect du workflow de vidéo, notamment les performances, l'utilisation des ressources réseau, les résultats de monétisation, etc.

Quelles sont les potentielles applications vidéo de machine learning du futur ?

Sécurité : l'une des principales préoccupations concernant la sécurisation du cloud est le contrôle d'accès. Par exemple, les fournisseurs de vidéos veulent empêcher les employés de commettre des erreurs susceptibles de révéler accidentellement du contenu privé, tel que des séquences vidéo d'un blockbuster inédit. Un « agent de sécurité de machine learning » pourrait vous prémunir contre de tels problèmes en détectant le contenu protégé dévoilé avant que quiconque ne le remarque.

Droits de contenu : une autre problématique se pose pour les fournisseurs de vidéos lorsqu'une personne publie en ligne des vidéos de contenus protégés par droit d'auteur avec des astuces lui permettant d'éviter les tatouages numériques ou les filtres de contenu ; en ralentissant par exemple la fréquence d'images à une image par seconde. Imaginez une solution de machine learning disposant de scripts de studio ou de contenu de détenteurs de droit. Grâce à ces données, la solution peut rechercher sur le web de nouveaux contenus et reconnaître les dialogues et l'audio correspondant à un script.

Vidéo de démonstration : vidéo sur le machine learning dans le domaine du sport

Analyses basées sur les images : découvrez avec quelle facilité vous pouvez identifier et suivre les personnes dans une scène, créer et afficher des métadonnées depuis cette scène, et tirer parti des fonctionnalités de recherche incroyablement rapides et intelligentes de cette démonstration associant AWS Elemental Media Services et Amazon Rekognition.

Analyse basée sur les images pour la vidéo de démonstration [3:41]

Mise en route

Nous pouvons vous aider à démarrer en vous proposant une consultation avec nos commerciaux et une revue d’architecture. Vous pouvez également commencer votre propre projet pilote dès aujourd'hui.