Présentation

La reconnaissance faciale d'Amazon Rekognition permet aux créateurs d'applications de mesurer la similarité entre l'image d'un visage et l'image d'un second visage. Cette carte de service d'IA décrit les éléments à prendre en compte pour mettre en correspondance de manière responsable des visages sur des photos d'identité typiques et dans des médias (comme des films, des albums photos et des images capturées sur le vif dans des environnements naturels ou non contrôlés) à l'aide de nos API CompareFaces et SearchFaces. En général, les clients utilisent CompareFaces pour comparer un visage source avec un visage cible (correspondance 1:1) et SearchFaces pour mettre en correspondance un visage source avec un ensemble de visages cibles (correspondance 1:N). Rekognition ne fournit pas de collections de visages prédéfinies aux clients, qui doivent créer et compléter eux-mêmes leurs collections. Tout au long de cette carte, nous utilisons le terme « reconnaissance faciale » pour désigner les API CompareFaces et SearchFaces de Rekognition.

Une paire d'images de visage est considérée comme une « vraie correspondance » si les deux images contiennent le visage de la même personne, et comme « vraie non-correspondance » dans le cas contraire. Lorsque Rekognition reçoit une paire d'images « source » et « cible », le service renvoie un score évaluant la similitude entre le visage source dans l'image source et le visage cible dans l'image cible. Le score de similarité peut être compris entre 0, impliquant une très faible ressemblance, et 100, indiquant une similitude très élevée. Le service Rekognition ne décide pas lui-même, de manière indépendante, si deux visages dans des images constituent une vraie correspondance ou une vraie non-correspondance. Cette décision revient au flux de travail du client faisant appel à CompareFaces et/ou SearchFaces, qui utilise une logique automatique (en définissant un seuil de similarité entre 0 et 100 et en prédisant une vraie correspondance si le score de similarité dépasse le seuil), un jugement humain ou une combinaison des deux.

Les visages humains présentent des différences physiques, comme la couleur de peau et la géométrie. Cependant, chaque individu peut être représenté par des images différentes et, inversement, différents individus peuvent être représentés par des images très similaires. Par exemple, deux personnes qui ne diffèrent que par la forme de leurs yeux peuvent sembler identiques si elles portent la même paire de lunettes de soleil. Ce phénomène est dû à l'existence de nombreux facteurs possibles (appelés « variations confondantes ») qui se combinent pour modifier l'emplacement et la couleur des pixels d'image qui représentent un visage. Ces facteurs de confusion incluent : (1) la distribution de la direction, de l'intensité et de la longueur d'onde de l'éclairage ; (2) le port de tête ; (3) les défauts de mise au point et d'imagerie ; (4) la résolution d'image ; (5) les occlusions causées par les mains, la pilosité faciale, les cheveux, les téléphones portables, les langues saillantes, les écharpes, les lunettes, les chapeaux, les bijoux ou d'autres objets ; (6) l'expression faciale (par exemple, une expression neutre ou les yeux ouverts) ; et (7) les altérations du teint de la peau (par exemple, par du maquillage, de la peinture pour le visage, des coups de soleil ou de l'acné). Le score de similarité de Rekognition est conçu pour être faible pour les images de visages de différentes personnes et élevé pour les images du même visage, quelles que soient les variations confondantes. Rekognition utilise uniquement les informations disponibles dans les images source et cible pour évaluer la similarité entre des images de visages humains.

Cas d'utilisation prévus et limites

La reconnaissance faciale de Rekognition est uniquement destinée à comparer des visages humains. Elle ne prend pas en charge la reconnaissance de visages provenant de dessins animés, de personnages animés ou d'entités non humaines. Elle ne prend pas non plus en charge l'utilisation d'images faciales trop floues et granuleuses pour que le visage soit reconnu par un être humain, ou dans lesquelles de grandes parties du visage sont masquées par des cheveux, des mains ou d'autres objets. En outre, AWS a mis en place un moratoire sur l'utilisation par la police des API Rekognition::CompareFaces et Rekognition::SearchFaces dans le cadre d'enquêtes criminelles (consultez la section 50.9 des conditions de service AWS pour en savoir plus).

La reconnaissance faciale de Rekognition permet de nombreuses utilisations, telles que l'identification d'enfants disparus, l'accès à des bâtiments ou à des salles de conférence, la vérification de l'identité en ligne et l'organisation de photothèques personnelles. Ces utilisations varient en fonction du nombre de personnes impliquées, du nombre d'images différentes disponibles pour chaque personne, de l'ampleur des variations confondantes attendues, des coûts relatifs des fausses correspondances et des fausses non-correspondances, et d'autres facteurs. Nous organisons ces utilisations en deux grands cas d'utilisation.

Cas d'utilisation de la vérification d'identité : les applications de vérification de l'identité utilisent la reconnaissance faciale pour intégrer de nouveaux utilisateurs et autoriser les utilisateurs existants à accéder à des ressources. Dans ce cas d'utilisation, les variations confondantes sont généralement réduites grâce à l'utilisation de photos provenant de pièces d'identité émises par le gouvernement (comme des passeports et des permis de conduire) et de selfies en temps réel, ceux-ci favorisant la prise de photos avec le visage tourné vers l'appareil, dans des conditions bien éclairées et non obstruées. Ainsi, la collection cible peut contenir un grand nombre d'individus (parfois plusieurs millions), chacun représenté par un petit nombre d'images faciales. Dans ce cas d'utilisation, certains utilisateurs finaux peuvent essayer de tromper le système pour obtenir un accès non autorisé. Pour atténuer ce risque, les clients peuvent par exemple vérifier manuellement que les images source et cible soumises à Rekognition répondent à leurs attentes et/ou exiger que les correspondances présentent un score de similarité élevé (par exemple, 95).

Cas d'utilisation multimédias : les applications multimédias utilisent la reconnaissance faciale pour identifier des personnes dans des photos et des vidéos provenant d'un ensemble d'individus connus (par exemple, pour rechercher des membres de la famille dans des vidéos de vacances). Dans ce cas d'utilisation, il existe une forte variation confondante entre les images source et cible d'une même personne, de sorte que les collections cibles peuvent contenir moins d'individus avec plus d'images par utilisateur (couvrant peut-être plusieurs années de la vie de la personne). Les utilisateurs finaux ont moins de raisons d'essayer de tromper le système. Les clients peuvent donc opter pour des flux de travail hautement automatisés et, compte tenu de la forte variation confondante, ils peuvent autoriser les correspondances avec un score de similarité plus faible (par exemple, 80).

Conception de la reconnaissance faciale de Rekognition

Machine learning : la reconnaissance faciale de Rekognition repose sur des technologies de machine learning et de vision par ordinateur. Voici comment elle fonctionne : (1) dans l'image d'entrée, localisez la partie qui contient le visage. (2) Extrayez la région de l'image contenant la tête et alignez-la de manière à ce que le visage soit en position verticale « normale », en produisant des images de visage rognées. (3) Convertissez chaque image de visage rognée en un « vecteur facial » (il s'agit techniquement d'une représentation mathématique de l'image d'un visage). Notez que les collections parcourues par SearchFaces sont des ensembles de vecteurs faciaux et non des ensembles d'images de visages. (4) Comparez les vecteurs faciaux source et cible et renvoyez le score de similarité du système pour ces vecteurs faciaux. Consultez la documentation destinée aux développeurs pour en savoir plus sur les appels d'API.

Attentes en matière de performances : les variations individuelles et confondantes diffèrent selon les applications du client. Cela signifie que les performances sont également différentes d'une application à l'autre, même si elles prennent en charge le même cas d'utilisation. Prenons l'exemple de deux applications de vérification d'identité : A et B. Dans chacune de ces applications, un utilisateur enregistre d'abord son identité avec une image de type passeport, puis vérifie son identité à l'aide de selfies en temps réel. Avec l'application A, l'utilisateur peut obtenir l'accès en utilisant son propre smartphone pour prendre des selfies haute résolution, avec une mise au point appropriée, le visage bien éclairé, non obstrué et tourné vers l'appareil. Quant à l'application B, elle permet à l'utilisateur d'accéder au bâtiment en utilisant une caméra d'entrée pour capturer des selfies moins bien éclairés, plus flous et de résolution inférieure. Comme les applications A et B ont des types d'entrées différents, elles présenteront probablement des taux d'erreur de reconnaissance faciale différents, même en supposant que chaque application est parfaitement déployée à l'aide de Rekognition.

Méthodologie pilotée par les tests : un jeu de données d'évaluation unique ne suffit pas pour évaluer les performances, c'est pourquoi nous en utilisons plusieurs. En effet, les jeux de données d'évaluation varient en fonction de leur composition démographique (le nombre et le type de groupes définis), de l'ampleur des variations confondantes (qualité du contenu, adapté à l’objectif), des types et de la qualité des étiquettes disponibles et d'autres facteurs. Nous mesurons les performances de Rekognition en testant le service sur des jeux de données d'évaluation contenant des paires d'images d'un même individu (paires correspondantes) et des paires d'images de personnes différentes (paires non correspondantes). Nous choisissons un seuil de similarité, nous utilisons Rekognition pour calculer le score de similarité de chaque paire et, en fonction du seuil, nous déterminons si la paire est une correspondance ou une non-correspondance. Deux chiffres représentent les performances globales d'un jeu de données : le taux de vraie correspondance (le pourcentage de paires correspondantes dont la similarité est supérieure au seuil) et le taux de vraie non-correspondance (le pourcentage de paires non correspondantes dont le score de similarité est inférieur au seuil). Si nous modifiions le seuil de similarité, les taux de vraie correspondance et de vraie non-correspondance changent également. Les groupes d'un jeu de données peuvent être définis par des attributs démographiques (par exemple, le sexe), des variables confondantes (par exemple, la présence ou l'absence de pilosité faciale) ou une combinaison des deux. Les différents jeux de données d'évaluation varient en fonction de ces facteurs et d'autres. De ce fait, les taux de vraie correspondance et de vraie non-correspondance, à la fois globaux et pour les groupes, varient d'un jeu de données à l'autre. En tenant compte de cette variation, notre processus de développement examine les performances de Rekognition à l'aide de plusieurs jeux de données d'évaluation, prend des mesures pour augmenter les taux de vraie correspondance et/ou de vraie non-correspondance pour les groupes pour lesquels Rekognition a obtenu les moins bons résultats, s'efforce d'améliorer la suite de jeux de données d'évaluation, puis itère.

Équité et biais : notre objectif est que la reconnaissance faciale de Rekognition fonctionne correctement pour tous les visages humains. Pour ce faire, nous utilisons le processus de développement itératif décrit ci-dessus. Dans le cadre de ce processus, nous créons des jeux de données qui capturent un large éventail de traits du visage humain et de tons de peau soumis à un grand choixl de variations confondantes. Nous testons régulièrement différents cas d'utilisation sur des jeux de données d'images faciales pour lesquels nous disposons d'étiquettes démographiques fiables, telles que le sexe, l'âge et le teint. Nous constatons que Rekognition fonctionne bien sur tous les attributs démographiques. Par exemple, Credo AI, une entreprise spécialisée dans l'IA responsable, a effectué une évaluation tierce de Rekognition à l'aide d'un jeu de données de vérification d'identité contenant des images de haute qualité de sujets avec un bon éclairage, non floues et sans occlusion. Credo AI a observé que le taux de vraie correspondance le plus faible était de 99,94816 % pour six groupes démographiques définis par le teint et le sexe, et que le taux de vraie non-correspondance le plus faible dans les six groupes était de 99,99995 %, le seuil de similarité étant fixé à 95 %. Étant donné que les résultats de performance dépendent de divers facteurs, notamment de Rekognition, du flux de travail du client et du jeu de données d'évaluation, nous recommandons aux clients de tester davantage Rekognition avec leur propre contenu.

Explicabilité : si les clients ont des questions concernant le score de similarité renvoyé par Rekognition pour une paire donnée d'images source et cible, nous leur recommandons d'utiliser le cadre de délimitation et les informations relatives aux repères faciaux renvoyés par Rekognition pour inspecter directement les images faciales.

Robustesse : nous optimisons la robustesse grâce à diverses techniques, notamment l'utilisation de grands jeux de données d'entraînement qui capturent de nombreux types de variations entre un grand nombre de personnes. Étant donné que Rekognition ne peut pas être à la fois très sensible aux petites différences entre différentes personnes (comme des jumeaux identiques) et très peu sensible aux variations confondantes (tels que le maquillage appliqué pour mettre en valeur les pommettes), les clients doivent établir des attentes en matière de taux de vraie correspondance et de vraie non-correspondance adaptés à leur cas d'utilisation, et tester les performances du flux de travail, y compris le choix du seuil de similarité, sur leur contenu.

Confidentialité et sécurité : la reconnaissance faciale de Rekognition traite trois types de données, à savoir les images d'entrée des clients, les vecteurs faciaux des images d'entrée, et les scores de similarité et métadonnées de sortie. Les vecteurs faciaux ne sont jamais inclus dans la sortie renvoyée par le service. Les entrées et les sorties ne sont jamais partagées entre les clients. Les clients peuvent se désinscrire de la formation sur le contenu client via AWS Organizations ou d'autres mécanismes de désinscription que nous pouvons proposer. Consultez la section 50.3 des conditions de service AWS et la FAQ sur la confidentialité des données d'AWS pour plus d'informations. Pour obtenir des informations de confidentialité et de sécurité spécifiques à un service, consultez la section Confidentialité des données de la FAQ sur Rekognition et la documentation sur la sécurité d'Amazon Rekognition.

Transparence : selon leur cas d'utilisation, les clients qui intègrent les API de reconnaissance faciale d'Amazon Rekognition dans leurs flux de travail devraient envisager de divulguer leur utilisation de la technologie de machine learning et de reconnaissance faciale aux utilisateurs finaux et aux autres personnes touchées par cette utilisation, et donner à leurs utilisateurs finaux la possibilité de fournir des commentaires concernant l'amélioration des flux de travail. Dans leur documentation, les clients peuvent également faire référence à cette carte de service d'IA.

Gouvernance : nous suivons des méthodologies rigoureuses pour développer nos services d'IA AWS de manière responsable, notamment un processus de développement de produits rétroactif qui intègre l'IA responsable dès la phase de conception, des consultations relatives à la conception et des évaluations de la mise en œuvre par des experts dédiés à la science et aux données de l'IA responsable, des tests de routine, des évaluations avec les clients, ainsi que le développement et la diffusion de meilleures pratiques et la formation à ces dernières.

Meilleures pratiques en matière de déploiement et d'optimisation des performances

Nous encourageons les clients à créer et à exploiter leurs applications de manière responsable, comme décrit dans le guide AWS Responsible Use of Machine Learning. Cela comprend la mise en œuvre de pratiques d'IA responsable pour répondre à des dimensions clés telles que l'équité et les biais, la robustesse, l'explicabilité, la confidentialité et la sécurité, la transparence et la gouvernance.
 
Conception du flux de travail : la précision de toute application utilisant la reconnaissance faciale de Rekognition dépend de la conception du flux de travail du client, notamment : (1) du nombre de personnes uniques mises en correspondance ; (2) de la quantité de variations confondantes autorisée ; (3) des seuils de similarité choisis ; (4) de la manière dont les correspondances sont décidées ; (5) de la cohérence du flux de travail appliqué entre les groupes démographiques ; et (6) de la réalisation périodique de nouveaux tests pour détecter les écarts.
 
  1. Variation individuelle : lors de la recherche d'un visage source parmi une collection de visages cibles, plus le degré de dissemblance physique entre les différents individus de l'ensemble cible augmente, plus les chances de réussite augmentent également. Par exemple, il est plus difficile de trouver une correspondance entre des jumeaux identiques qu'entre des jumeaux fraternels ou des individus non apparentés. En général, les collections cibles comportant un plus grand nombre d'individus uniques présentent un risque plus élevé d'avoir deux individus uniques qui se ressemblent de près. Il convient dès lors de faire preuve de plus de prudence lors de la prise de décision définitive concernant une correspondance. Les flux de travail doivent prendre en compte la similarité éventuelle des individus de la collection cible lors de l'interprétation des scores de similarité renvoyés pour les images source.

  2. Variation confondante : lors de la sélection de paires d'images source et cible, les flux de travail doivent inclure des étapes visant à réduire les variations entre les images source et cible (telles que les différences de conditions d'éclairage). Si la variation est importante, pensez à ajouter plusieurs images (« options ») du visage de chaque individu cible qui couvrent les variations attendues (telles que les poses, l'éclairage et l'âge), et à comparer l'image du visage source avec chaque option cible. Si, par souci de commodité, vous préférez n'avoir qu'une seule option, envisagez d'utiliser une photo de style passeport, dans laquelle le visage est non obstrué et orienté vers l'avant. Les flux de travail doivent établir des politiques relatives aux images d'entrée autorisées et contrôler la conformité en échantillonnant périodiquement et de manière aléatoire les entrées.

  3. Seuil de similarité : il est important de définir un seuil de similarité approprié pour l'utilisation prévue. Sinon, le flux de travail pourrait déterminer l'existence d'une correspondance alors qu'il n'y en a pas (fausse correspondance) ou vice versa (fausse non-correspondance). Le coût d'une fausse correspondance peut ne pas être le même que celui d'une fausse non-correspondance. Par exemple, un seuil de similarité approprié pour l'authentification peut être beaucoup plus élevé que celui pour les médias. Pour définir un seuil de similarité approprié, le client doit collecter un ensemble représentatif de paires d'entrée, étiqueter chacune de ces paires pour indiquer s'il s'agit d'une correspondance ou d'une non-correspondance, et essayer des seuils de similarité plus élevés ou plus bas jusqu'à atteindre un seuil satisfaisant.

  4. Supervision humaine : Si le flux de travail d'une application d'un client comporte un risque élevé ou un cas d'utilisation sensible, tel qu'une décision ayant une incidence sur les droits d'une personne ou sur l'accès à des services essentiels, un contrôle humain doit être incorporé dans le flux de travail de l'application, le cas échéant. Les systèmes de reconnaissance faciale peuvent servir d'outils pour réduire les efforts liés à des solutions entièrement manuelles et pour permettre aux humains d'examiner et d'évaluer rapidement les correspondances et les non-correspondances possibles.

  5. Cohérence : les clients doivent définir et appliquer des politiques concernant les types d'images source et cible autorisés, ainsi que la manière dont les humains combinent l'utilisation du seuil de similarité et leur propre jugement pour déterminer les correspondances. Ces politiques doivent être cohérentes pour tous les groupes démographiques. La modification incohérente des images source et cible ou des seuils de similarité pourrait entraîner des résultats injustes pour différents groupes démographiques.

  6. Écart des performances : les résultats peuvent varier lorsque le client modifie les types d'images envoyés à Rekognition ou le service lui-même. Pour faire face à ces changements, les clients doivent envisager de retester périodiquement les performances de Rekognition et d'ajuster leur flux de travail si nécessaire.

Plus d'informations

  • Si vous avez des questions ou des commentaires concernant les cartes de services d'IA AWS, veuillez remplir ce formulaire.

Glossaire

Les termes équité et biais désignent l'impact d'un système d'IA sur différentes sous-populations d'utilisateurs (par exemple, selon le sexe ou l'origine ethnique).

Le terme explicabilité désigne la mise en place de mécanismes permettant de comprendre et d'évaluer les résultats d'un système d'IA.

Le terme robustesse désigne la mise en place de mécanismes garantissant le fonctionnement fiable d'un système d'IA.

Les termes confidentialité et sécurité désignent la protection des données contre le vol et la divulgation.

Le terme gouvernance désigne la mise en place de processus pour définir, mettre en œuvre et appliquer des pratiques d'IA responsable au sein d'une organisation.

Le terme transparence désigne la communication d'informations sur un système d'IA afin que les parties prenantes puissent prendre des décisions éclairées quant à leur utilisation du système.