Qu'est-ce que la vision par ordinateur ?

La vision par ordinateur est une technologie que les machines utilisent pour reconnaître automatiquement les images et les décrire avec précision et efficacité. Aujourd'hui, les systèmes informatiques ont accès à un grand volume d'images et de données vidéo provenant ou créées par des smartphones, des caméras de circulation, des systèmes de sécurité et d'autres appareils. Les applications de vision par ordinateur utilisent l'intelligence artificielle et le machine learning (AI/ML) pour traiter ces données avec précision à des fins d'identification d'objets et de reconnaissance faciale, ainsi que de classification, de recommandation, de surveillance et de détection.

Pourquoi la vision par ordinateur est-elle importante ?

Bien que la technologie de traitement de l'information visuelle existe depuis un certain temps, une grande partie du processus nécessitait une intervention humaine, prenait du temps et était source d'erreurs. Par exemple, la mise en œuvre d'un système de reconnaissance faciale dans le passé a obligé les développeurs à baliser manuellement des milliers d'images avec des points de données clés, tels que la largeur du pont nasal et la distance entre les yeux. L'automatisation de ces tâches exigeait une puissance de calcul importante, car les données d'images ne sont pas structurées et leur organisation est complexe pour les ordinateurs. Les applications de vision étaient donc coûteuses et inaccessibles à la plupart des entreprises.

Aujourd'hui, les progrès réalisés dans ce domaine, combinés à une augmentation considérable de la puissance de calcul, ont amélioré à la fois l'échelle et la précision du traitement des données d'image. Les systèmes de vision par ordinateur alimentés par des ressources de cloud computing sont désormais accessibles à tous. Toute organisation peut utiliser cette technologie pour la vérification de l'identité, la modération du contenu, l'analyse de vidéos en streaming, la détection de défauts, etc.

Quels sont les cas d'utilisation de la vision par ordinateur ?

De nombreuses applications de vision par ordinateur sont utilisées dans les domaines du divertissement, des affaires, de la santé, des transports et de la vie quotidienne. Nous examinons quelques cas d'utilisation ci-dessous :

Sûreté et sécurité

Les gouvernements et les entreprises utilisent la vision par ordinateur pour améliorer la sécurité des actifs, des sites et des installations. Par exemple, des caméras et des capteurs surveillent les espaces publics, les sites industriels et les environnements de haute sécurité. Ils envoient des alertes automatiques si quelque chose d'inhabituel se produit, par exemple si une personne non autorisée entre dans une zone réglementée.

De même, la vision par ordinateur peut améliorer la sécurité personnelle à la maison comme sur le lieu de travail. Par exemple, la technologie de reconnaissance peut surveiller une myriade de problèmes liés à la sécurité. Il s'agit notamment de diffusions en temps réel à domicile détectant les animaux domestiques ou de caméras en direct détectant les visiteurs ou les colis livrés. Sur le lieu de travail, cette surveillance inclut le port d'équipements de protection individuelle appropriés par les travailleurs, l'information des systèmes d'alerte ou la production de rapports.

Efficacité opérationnelle

La vision par ordinateur peut analyser des images et extraire des métadonnées à des fins d'intelligence économique, créant ainsi de nouvelles opportunités de revenus et une efficacité opérationnelle. Par exemple, elle peut :

  • Identifier automatiquement les défauts de qualité avant que les produits ne quittent l'usine
  • Détecter les problèmes de maintenance et de sécurité des machines
  • Analyser les images des réseaux sociaux pour découvrir les tendances et les modèles de comportement des clients
  • Authentifier les employés grâce à la reconnaissance faciale automatique

Soins médicaux

La santé est l'un des principaux secteurs utilisant la technologie de vision par ordinateur. L'analyse d'images médicales permet notamment de visualiser les organes et les tissus afin d'aider les professionnels de la santé à établir des diagnostics rapides et précis, ce qui se traduit par de meilleurs résultats thérapeutiques et une meilleure espérance de vie. Exemples :

  • Détection de tumeurs par analyse des grains de beauté et des lésions cutanées
  • Analyse automatique aux rayons X
  • Découverte de symptômes à partir de l'IRM

Véhicules autonomes

La technologie des véhicules autonomes utilise la vision par ordinateur pour reconnaître des images en temps réel et créer des cartes 3D à partir de plusieurs caméras installées sur le transport autonome. Elle peut analyser des images et identifier d'autres usagers de la route, des panneaux de signalisation, des piétons ou des obstacles.

Dans les véhicules semi-autonomes, la vision par ordinateur utilise le machine learning (ML) pour surveiller le comportement du conducteur. Par exemple, elle détecte les signes de distraction, de fatigue et de somnolence en fonction de la position de la tête du conducteur, du suivi oculaire et des mouvements du haut du corps. Si la technologie détecte certains signaux d'alerte, elle alerte le conducteur et réduit les risques d'accident de la route.

Agriculture

Qu'il s'agisse de stimuler la productivité ou de réduire les coûts grâce à l'automatisation intelligente, les applications de vision par ordinateur améliorent le fonctionnement global du secteur agricole. L'imagerie satellite ainsi que les images des drones permettent d'analyser de vastes étendues de terre et d'améliorer les pratiques agricoles. Les applications de vision par ordinateur automatisent des tâches telles que la surveillance des conditions des champs, l'identification des maladies des cultures, la vérification de l'humidité du sol et la prévision des conditions météorologiques et des rendements des cultures. La surveillance des animaux à l'aide de la vision par ordinateur est une autre stratégie clé de l'agriculture intelligente.

Comment fonctionne la vision par ordinateur ?

Les systèmes de vision par ordinateur utilisent la technologie de l'intelligence artificielle (IA) pour imiter les capacités du cerveau humain qui sont responsables de la reconnaissance et de la classification des objets. Les informaticiens apprennent aux ordinateurs à reconnaître les données visuelles en saisissant de grandes quantités d'informations. Les algorithmes de machine learning (ML) identifient les modèles courants dans ces images ou vidéos et appliquent ces connaissances pour identifier avec précision des images inconnues. Par exemple, si les ordinateurs traitent des millions d'images de voitures, ils commenceront à créer des modèles d'identité capables de détecter avec précision un véhicule sur une image. La vision par ordinateur utilise des technologies telles que celles présentées ci-dessous.

Deep learning

Le deep learning est un type de machine learning qui utilise des réseaux neuronaux. Les réseaux neuronaux de deep learning sont constitués de nombreuses couches de modules logiciels appelés neurones artificiels qui fonctionnent ensemble à l'intérieur de l'ordinateur. Ils utilisent des calculs mathématiques pour traiter automatiquement différents aspects des données d'image et développer progressivement une compréhension combinée de l'image.

Réseaux neuronaux convolutifs

Les réseaux neuronaux convolutionnels (CNN) utilisent un système d'étiquetage pour classer les données visuelles et comprendre l'ensemble de l'image. Ils analysent les images sous forme de pixels et attribuent à chaque pixel une valeur d'étiquette. La valeur est saisie pour effectuer une opération mathématique appelée convolution et faire des prédictions concernant l'image. Comme un être humain qui tente de reconnaître un objet à distance, un CNN identifie d'abord les contours et les formes simples avant de renseigner des détails supplémentaires tels que la couleur, les formes internes et la texture. Enfin, il répète le processus de prédiction sur plusieurs itérations pour améliorer la précision.

Réseaux neuronaux récurrents

Les réseaux neuronaux récurrents (RNN) sont similaires aux CNN, mais ils peuvent traiter une série d'images pour trouver des liens entre eux. Alors que les CNN sont utilisés pour l'analyse d'images uniques, les RNN peuvent analyser des vidéos et comprendre les relations entre les images. 

Quelles sont les tâches courantes que la vision par ordinateur peut effectuer ?

Examinons ci-dessous quelques exemples de tâches de vision par ordinateur que les organisations peuvent mettre en œuvre. 

Classification d'image

La classification des images permet aux ordinateurs de voir une image et de classer avec précision la classe à laquelle elle appartient. La vision par ordinateur comprend les classes et les étiquette, par exemple des arbres, des avions ou des bâtiments. Par exemple, un appareil photo peut reconnaître des visages sur une photo et effectuer la mise au point sur eux.

Détection d'objets

La détection d'objets est une tâche de vision par ordinateur qui permet de détecter et de localiser des images. Elle utilise la classification pour identifier, trier et organiser les images. La détection d'objets est utilisée dans les processus industriels et de fabrication pour contrôler les applications autonomes et surveiller les lignes de production. Les fabricants de caméras domestiques connectées et les fournisseurs de services s'appuient également sur la détection d'objets pour traiter les flux vidéo en direct des caméras afin de détecter les personnes et les objets en temps réel et de fournir des alertes exploitables à leurs utilisateurs finaux.

Suivi d'objets

Le suivi d'objets utilise des modèles de deep learning pour identifier et suivre les éléments appartenant à des catégories. Il a plusieurs applications réelles dans de nombreux secteurs. Le premier élément du suivi d'objets est la détection des objets ; un cadre de délimitation est créé autour de l'objet, un ID d'objet lui est attribué et peut être suivi à travers des cadres. Par exemple, le suivi d'objets peut être utilisé pour la surveillance du trafic en milieu urbain, la surveillance humaine et l'imagerie médicale.

Segmentation

La segmentation est un algorithme de vision par ordinateur qui identifie un objet en divisant les images de celui-ci en différentes régions en fonction des pixels vus. La segmentation permet également de simplifier une image, par exemple en plaçant la forme ou le contour d'un élément pour déterminer de quoi il s'agit. Ce faisant, la segmentation reconnaît également s'il existe plusieurs objets dans une image ou un cadre.

Par exemple, s'il y a un chat et un chien dans une image, la segmentation peut être utilisée pour reconnaître les deux animaux. Contrairement à la détection d'objets, qui crée un cadre autour d'un objet, la segmentation suit les pixels pour déterminer la forme d'un objet, ce qui facilite son analyse et son étiquetage.

Récupération d'images basée sur le contenu

La récupération d'images basée sur le contenu est une application de techniques de vision par ordinateur qui permet de rechercher des images numériques spécifiques dans de grandes bases de données. Il analyse les métadonnées telles que les balises, les descriptions, les étiquettes et les mots-clés. La recherche sémantique utilise des commandes telles que « rechercher des images de bâtiments » pour récupérer le contenu approprié.

Quelle est la différence entre la vision par ordinateur et le traitement d'image ?

Le traitement d'image utilise des algorithmes pour modifier les images, notamment la netteté, le lissage, le filtrage ou l'amélioration. La vision par ordinateur est différente car elle ne modifie pas une image, mais donne un sens à ce qu'elle voit et exécute une tâche, telle que l'étiquetage. Dans certains cas, vous pouvez utiliser le traitement d'image pour modifier une image afin qu'un système de vision par ordinateur puisse mieux la comprendre. Dans d'autres cas, vous utilisez la vision par ordinateur pour identifier des images ou des parties d'une image, puis vous utilisez le traitement d'image pour modifier davantage l'image.

Comment AWS vous aide-t-il dans vos tâches de vision par ordinateur ?

AWS fournit l'ensemble le plus large et le plus complet de services d'intelligence artificielle et de machine learning (IA/de ML) connectés à un ensemble complet de sources de données aux clients de tous niveaux d'expertise.

Pour les clients qui s'appuient sur des frameworks et gèrent leur propre infrastructure, nous optimisons les versions des frameworks de deep learning les plus populaires, notamment PyTorch, MXNet et TensorFlow. AWS propose un portefeuille complet de services ML d'infrastructure de calcul, de réseau et de stockage, avec un choix de processeurs et d'accélérateurs pour répondre à des besoins uniques en termes de performances et de budget.

Pour les clients qui souhaitent créer une solution de vision par ordinateur standard à l'échelle de leur entreprise, Amazon SageMaker facilite la préparation des données, mais aussi la création, l'entraînement et le déploiement de modèles de machine learning pour tous les cas d'utilisation avec une infrastructure, des outils et des flux de travail entièrement gérés, y compris des offres sans code pour les analystes métier.

Pour les clients qui n'ont pas de compétences en matière de machine learning, qui ont besoin de délais de commercialisation plus courts ou qui souhaitent ajouter de l'intelligence à un processus ou à une application existants, AWS propose une gamme de services de vision par ordinateur basés sur le machine learning. Ces services vous permettent d'ajouter facilement de l'intelligence à vos applications d'IA grâce à des API préentraînées. Amazon Rekognition automatise votre analyse d'images et de vidéos grâce au machine learning et analyse des millions d'images, de diffusions en direct et de vidéos stockées en quelques secondes. Amazon Deep Lens est la première caméra vidéo compatible avec le deep learning au monde qui permet aux développeurs d'apprendre les bases du deep learning par le biais de projets de vision par ordinateur, de didacticiels et d'une exploration pratique du monde réel à l'aide d'un appareil physique.

Démarrez avec la vision par ordinateur en créant un compte AWS gratuit dès aujourd'hui.

Prochaines étapes sur AWS

Consultez d'autres ressources liées aux produits
En savoir plus sur les services de machine learning 
Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencer à créer sur la console

Commencez à créer avec AWS dans la Console de gestion AWS.

Se connecter