Qu'est-ce que la vision par ordinateur ?

La vision par ordinateur est une technologie que les machines utilisent pour reconnaître automatiquement les images et les décrire avec précision et efficacité. Aujourd'hui, les systèmes informatiques ont accès à un grand volume d'images et de données vidéo provenant ou créées par des smartphones, des caméras de circulation, des systèmes de sécurité et d'autres appareils. Les applications de vision par ordinateur utilisent l'intelligence artificielle et l'apprentissage automatique (IA/ML) pour traiter ces données avec précision à des fins d'identification d'objets et de reconnaissance faciale, ainsi que de classification, de recommandation, de surveillance et de détection.

Cas d'utilisation

Sûreté et sécurité

Les gouvernements et les entreprises utilisent la vision par ordinateur pour améliorer la sécurité des actifs, des sites et des installations. Par exemple, des caméras et des capteurs surveillent les espaces publics, les sites industriels et les environnements de haute sécurité. Ils envoient des alertes automatiques si quelque chose d'inhabituel se produit, comme l'entrée d'une personne non autorisée dans une zone réglementée.

De même, la vision par ordinateur peut améliorer la sécurité personnelle à la maison et sur le lieu de travail. Par exemple, la technologie de reconnaissance peut surveiller une myriade de problèmes liés à la sécurité. Il s'agit notamment de diffusions en temps réel à domicile détectant les animaux domestiques ou de caméras en direct détectant les visiteurs ou les colis livrés. Sur le lieu de travail, cette surveillance comprend le port d'équipements de protection individuelle appropriés par les travailleurs, l'information des systèmes d'alerte ou la génération de rapports.

Efficacité opérationnelle

La vision par ordinateur permet d'analyser des images et d'extraire des métadonnées à des fins d'informatique décisionnelle, créant ainsi de nouvelles opportunités de revenus et d'efficacité opérationnelle. Par exemple, il peut :

Identifier automatiquement les défauts de qualité avant que les produits ne quittent l'usine
Détecter les problèmes de maintenance et de sécurité des machines
Analyser les images des réseaux sociaux pour découvrir les tendances et les modèles de comportement des clients
Authentifier les employés grâce à la reconnaissance faciale automatique

Véhicules autonomes

La technologie des véhicules autonomes utilise la vision par ordinateur pour reconnaître des images en temps réel et créer des cartes 3D à partir de plusieurs caméras équipées pour le transport autonome. Il peut analyser des images et identifier les autres usagers de la route, les panneaux de signalisation, les piétons ou les obstacles.

Dans les véhicules semi-autonomes, la vision par ordinateur utilise l'apprentissage automatique (ML) pour surveiller le comportement des conducteurs. Par exemple, elle détecte les signes de distraction, de fatigue et de somnolence en fonction de la position de la tête du conducteur, du suivi oculaire et des mouvements du haut du corps. Si la technologie détecte certains signes avant-coureurs, elle alerte le conducteur et réduit le risque d'incident de conduite.

Agriculture

Qu'il s'agisse d'augmenter la productivité ou de réduire les coûts grâce à une automatisation intelligente, les applications de vision par ordinateur améliorent le fonctionnement global du secteur agricole. L'imagerie satellite ainsi que les images des drones permettent d'analyser de vastes étendues de terre et d'améliorer les pratiques agricoles. Les applications de vision par ordinateur automatisent des tâches telles que la surveillance des conditions des champs, l'identification des maladies des cultures, la vérification de l'humidité du sol et la prévision des conditions météorologiques et des rendements des cultures. La surveillance des animaux à l'aide de la vision par ordinateur est une autre stratégie clé de l'agriculture intelligente.

Soins de santé

La santé est l'une des principales industries utilisant la technologie de vision par ordinateur. L'analyse d'images médicales permet notamment de visualiser les organes et les tissus afin d'aider les professionnels de la santé à établir des diagnostics rapides et précis, ce qui se traduit par de meilleurs résultats thérapeutiques et une meilleure espérance de vie. Par exemple :

Détection de tumeurs par analyse des grains de beauté et des lésions cutanées
Analyse automatique aux rayons X
Découverte de symptômes à partir de l'IRM

Comment fonctionne la vision par ordinateur ?

Les systèmes de vision par ordinateur utilisent la technologie de l'intelligence artificielle (IA) pour imiter les capacités du cerveau humain responsables de la reconnaissance et de la classification des objets. Les informaticiens apprennent aux ordinateurs à reconnaître les données visuelles en saisissant de grandes quantités d'informations. Les algorithmes de machine learning (ML) identifient les modèles courants dans ces images ou vidéos et appliquent ces connaissances pour identifier avec précision des images inconnues. Par exemple, si les ordinateurs traitent des millions d'images de voitures, ils commenceront à créer des modèles d'identité capables de détecter avec précision un véhicule sur une image. La vision par ordinateur utilise des technologies telles que celles présentées ci-dessous.

Deep learning

L'apprentissage profond est un type de machine learning qui utilise des réseaux de neurones. Les réseaux neuronaux de deep learning sont constitués de nombreuses couches de modules logiciels appelés neurones artificiels qui fonctionnent ensemble à l'intérieur de l'ordinateur. Ils utilisent des calculs mathématiques pour traiter automatiquement différents aspects des données d'image et développer progressivement une compréhension combinée de l'image.

Réseaux neuronaux convolutifs

Les réseaux neuronaux convolutifs (CNN) utilisent un système d'étiquetage pour catégoriser les données visuelles et comprendre l'image dans son ensemble. Ils analysent les images sous forme de pixels et attribuent à chaque pixel une valeur d'étiquette. La valeur est saisie pour effectuer une opération mathématique appelée convolution et faire des prédictions concernant l'image. Comme un être humain qui tente de reconnaître un objet à distance, un CNN identifie d'abord les contours et les formes simples avant de renseigner des détails supplémentaires tels que la couleur, les formes internes et la texture. Enfin, il répète le processus de prédiction sur plusieurs itérations pour améliorer la précision.

Réseaux neuronaux récurrents

Les réseaux neuronaux récurrents (RNN) sont similaires aux CNN, mais ils peuvent traiter une série d'images pour trouver des liens entre eux. Alors que les CNN sont utilisés pour l'analyse d'images uniques, les RNN peuvent analyser des vidéos et comprendre les relations entre les images.

Quelle est la différence entre la vision par ordinateur et le traitement d'image ?

Le traitement d'image utilise des algorithmes pour modifier les images, notamment pour les rendre plus nettes, lissées, filtrées ou améliorées. La vision par ordinateur est différente car elle ne modifie pas une image, mais donne un sens à ce qu'elle voit et exécute une tâche, telle que l'étiquetage. Dans certains cas, vous pouvez utiliser le traitement d'image pour modifier une image afin qu'un système de vision par ordinateur puisse mieux la comprendre. Dans d'autres cas, vous utilisez la vision par ordinateur pour identifier des images ou des parties d'une image, puis vous utilisez le traitement d'image pour modifier davantage l'image.

Quelles sont les tâches courantes que la vision par ordinateur peut effectuer ?

Classification d'image

La classification des images permet aux ordinateurs de voir une image et de classer avec précision la classe à laquelle elle appartient. La vision par ordinateur comprend les classes et les étiquette, par exemple des arbres, des avions ou des bâtiments. Par exemple, un appareil photo peut reconnaître des visages sur une photo et effectuer la mise au point sur eux.

Détection d'objets

La détection d'objets est une tâche de vision par ordinateur qui permet de détecter et de localiser des images. Elle utilise la classification pour identifier, trier et organiser les images. La détection d'objets est utilisée dans les processus industriels et de fabrication pour contrôler les applications autonomes et surveiller les lignes de production. Les fabricants de caméras domestiques connectées et les fournisseurs de services s'appuient également sur la détection d'objets pour traiter les flux vidéo en direct des caméras afin de détecter les personnes et les objets en temps réel et de fournir des alertes exploitables à leurs utilisateurs finaux.

Suivi d'objets

Le suivi d'objets utilise des modèles de deep learning pour identifier et suivre les éléments appartenant à des catégories. Il a plusieurs applications réelles dans de nombreux secteurs. Le premier élément du suivi d'objets est la détection des objets ; un cadre de délimitation est créé autour de l'objet, un ID d'objet lui est attribué et peut être suivi à travers des cadres. Par exemple, le suivi d'objets peut être utilisé pour la surveillance du trafic en milieu urbain, la surveillance humaine et l'imagerie médicale.

Segmentation

La segmentation est un algorithme de vision par ordinateur qui identifie un objet en divisant les images de celui-ci en différentes régions en fonction des pixels vus. La segmentation permet également de simplifier une image, par exemple en plaçant la forme ou le contour d'un élément pour déterminer de quoi il s'agit. Ce faisant, la segmentation reconnaît également s'il existe plusieurs objets dans une image ou un cadre.

Par exemple, s'il y a un chat et un chien dans une image, la segmentation peut être utilisée pour reconnaître les deux animaux. Contrairement à la détection d'objets, qui crée un cadre autour d'un objet, la segmentation suit les pixels pour déterminer la forme d'un objet, ce qui facilite son analyse et son étiquetage.

Comment AWS vous aide-t-il dans vos tâches de vision par ordinateur ?

AWS fournit l'ensemble le plus large et le plus complet de services d'intelligence artificielle et de machine learning (IA/de ML) connectés à un ensemble complet de sources de données aux clients de tous niveaux d'expertise.

Pour les clients qui s'appuient sur des frameworks et gèrent leur propre infrastructure, nous optimisons les versions des frameworks de deep learning les plus populaires, notamment PyTorch , MXNet et TensorFlow. AWS propose un portefeuille étendu et complet de services de machine learning pour les infrastructures de calcul, de réseau et de stockage, avec un choix de processeurs et d'accélérateurs pour répondre à des besoins uniques en termes de performances et de budget.

Pour les clients qui souhaitent créer une solution de vision par ordinateur standard pour leur entreprise, Amazon SageMaker facilite la préparation des données et la création, la formation et le déploiement de modèles de machine learning pour tous les cas d'utilisation grâce à une infrastructure, des outils et des flux de travail entièrement gérés, y compris des offres sans code pour les analystes commerciaux.

Pour les clients qui n’ont pas de compétences en matière de machine learning, qui ont besoin de délais de commercialisation plus courts ou qui souhaitent ajouter de l’intelligence à un processus ou à une application existants, AWS propose une gamme de services de vision par ordinateur basés sur le machine learning. Ces services vous permettent d'ajouter facilement de l'intelligence à vos applications d'IA grâce à des API préentraînées. Amazon Rekognition automatise l'analyse de vos images et vidéos grâce au machine learning et analyse des millions d'images, de diffusions en direct et de vidéos stockées en quelques secondes.

Commencez à utiliser la vision par ordinateur en créant un compte AWS gratuit dès aujourd'hui.

Qu'est-ce que la reconnaissance d'image ?