Übersicht

Amazon-Rekognition-Gesichtserkennung ermöglicht es Anwendungsentwicklern, die Ähnlichkeit zwischen einem Bild eines Gesichts und einem Bild eines zweiten Gesichts zu messen. Diese KI-Servicekarte beschreibt Überlegungen zur verantwortungsvollen Zuordnung von Gesichtern auf typischen Fotos im Identifikationsstil und in Medien (z. B. Filmen, Fotoalben und „wilden“ Bildern, die in unkontrollierten oder natürlichen Umgebungen aufgenommen wurden) mithilfe unserer CompareFaces- und SearchFaces- APIs. In der Regel verwenden Kunden CompareFaces, um ein Quellgesicht mit einem Zielgesicht zu vergleichen (1:1 -Matching), und SearchFaces, um ein Quellgesicht mit einer Sammlung von Zielgesichtern zu vergleichen (1:N-Abgleich). Rekognition stellt Kunden keine vorgefertigten Gesichtssammlungen zur Verfügung. Kunden müssen ihre eigenen Gesichtssammlungen erstellen und mit Daten füllen. In dieser Karte werden wir „Gesichtserkennung“ verwenden, um auf die CompareFaces API und die SearchFaces API von Rekognition zu verweisen.

Ein Paar von Gesichtsbildern gilt als „echte Übereinstimmung“, wenn beide Bilder das Gesicht derselben Person enthalten, andernfalls als „echte Nichtübereinstimmung“. Bei einem Eingabepaar aus „Quell-“ und „Ziel“ -Bildern gibt Rekognition einen Wert für die Ähnlichkeit des Quellgesichts im Quellbild mit dem Zielgesicht im Zielbild zurück. Der minimale Ähnlichkeitswert ist 0, was auf eine sehr geringe Ähnlichkeit hindeutet, und der Höchstwert ist 100, was auf eine sehr hohe Ähnlichkeit hindeutet. Rekognition selbst entscheidet nicht unabhängig, ob zwei Gesichter aus Bildern eine echte Übereinstimmung oder eine echte Nichtübereinstimmung sind; der Workflow des Kunden, der CompareFaces und/oder SearchFaces aufruft, entscheidet mithilfe automatisierter Logik (indem ein Ähnlichkeitsschwellenwert zwischen 0 und 100 festgelegt wird und eine echte Übereinstimmung vorhergesagt wird, wenn der Ähnlichkeitswert den Schwellenwert überschreitet), menschliches Urteilsvermögen oder eine Mischung aus beidem.

Menschliche Gesichter unterscheiden sich physisch, beispielsweise durch Hautton und Geometrie. Jedes einzelne Individuum kann jedoch durch unterschiedliche Bilder dargestellt werden, und umgekehrt können verschiedene Personen durch sehr ähnliche Bilder dargestellt werden. Zum Beispiel könnten zwei Personen, die sich nur in der Form ihrer Augen unterscheiden, gleich aussehen, wenn sie dieselbe Sonnenbrille tragen. Dies liegt daran, dass es viele mögliche Faktoren (sogenannte „Störvariationen“) gibt, die zusammen die Position und Farbe der Bildpixel ändern, die ein Gesicht darstellen. Zu diesen Störfaktoren gehören (1) Verteilungen der Beleuchtungsrichtung, -intensität und -wellenlänge; (2) Kopfhaltung; (3) Kamerafokus und Bildfehler; (4) Pixelauflösung; (5) Okklusionen durch Hände, Gesichtsbehaarung, Kopfhaare, Mobiltelefone, hervorstehende Zungen, Schals, Brillen, Hüte, Schmuck oder andere Objekte; (6) Gesichtsausdruck (z. B. neutral oder mit offenen Augen); und (7) Veränderungen des Hautfarbtons (z. B. durch Make-up, Gesichtsfarbe, Sonnenbrand oder Akne). Der Ähnlichkeitswert von Rekognition ist so konzipiert, dass er für Bilder von Gesichtern verschiedener Personen niedrig und für Bilder desselben Gesichts hoch ist, wobei die verwirrenden Variationen ignoriert werden. Rekognition verwendet nur die in den Quell- und Zielbildern verfügbaren Informationen, um die Ähnlichkeit menschlicher Gesichtsbilder zu beurteilen.

Vorgesehene Anwendungsfälle und Einschränkungen

Die Rekognition-Gesichtserkennung dient nur zum Vergleich von Gesichtern von Menschen. Es unterstützt nicht die Erkennung von Gesichtern aus Zeichentrickfilmen, animierten Charakteren oder nichtmenschlichen Wesen. Es unterstützt auch nicht die Verwendung von Gesichtsbildern, die zu verschwommen und körnig sind, als dass das Gesicht von einem Menschen erkannt werden könnte, oder bei denen große Teile des Gesichts durch Haare, Hände und andere Objekte verdeckt sind. Darüber hinaus hat AWS ein Moratorium für die polizeiliche Nutzung der Rekognition::CompareFaces- und Rekognition::searchFaces-APIs im Rahmen strafrechtlicher Ermittlungen eingeführt (weitere Informationen finden Sie in Abschnitt 50.9 der Nutzungsbedingungen für AWS-Services).

Die Rekognition-Gesichtserkennung ermöglicht viele Anwendungen, z. B. die Identifizierung vermisster Kinder, die Gewährung des Zugangs zu Gebäuden oder Tagungsräumen, die Online-Überprüfung der Identität und die Organisation persönlicher Fotobibliotheken. Diese Anwendungen variieren je nach Anzahl der beteiligten Personen, der Anzahl der verschiedenen Bilder, die für jede Person verfügbar sind, dem Ausmaß der erwarteten verwirrenden Variationen, den relativen Kosten falscher Treffer und falscher Nichtübereinstimmungen und anderen Faktoren. Wir ordnen diese Anwendungen in zwei große Anwendungsfälle ein.

Anwendungsfall zur Identitätsprüfung: Anwendungen zur Identitätsprüfung verwenden Gesichtserkennung, um neue Benutzer einzubinden und bestehenden Benutzern Zugriff auf Ressourcen zu gewähren. In diesem Anwendungsfall werden störende Abweichungen in der Regel minimiert, indem Fotos von behördlich ausgestellten Ausweisen (wie Reisepässen und Führerscheinen) und Selfies in Echtzeit verwendet werden, die dazu anregen, nach vorne gerichtete Posen von gut beleuchteten, nicht verdeckten Gesichtern zu zeigen. Auf diese Weise kann jedes Individuum in der Zielsammlung durch eine kleine Anzahl von Gesichtsbildern repräsentiert werden, und die Anzahl der verschiedenen Personen in der Sammlung kann groß sein (z. B. in Millionenhöhe). In diesem Anwendungsfall könnten bestimmte Endbenutzer versuchen, das System zu täuschen, um Zugriff zu erhalten, sodass Kunden dieses Risiko mindern können, indem sie beispielsweise manuell überprüfen, ob die an Rekognition übermittelten Quell- und Zielbilder den Erwartungen des Kunden entsprechen, und/oder dass Treffer hohe Ähnlichkeitswerte aufweisen müssen (z. B. 95).

Anwendungsfall für Medien: Medienanwendungen verwenden Gesichtserkennung, um Personen auf Fotos und Videos anhand einer Gruppe bekannter Personen zu identifizieren (z. B. um Familienmitglieder in Urlaubsvideos zu finden). In diesem Anwendungsfall gibt es eine hohe verwirrende Variation zwischen Quell- und Zielbildern derselben Person, sodass Zielsammlungen möglicherweise weniger Personen mit mehr Bildern pro Benutzer enthalten (möglicherweise über mehrere Lebensjahre der Person). In diesem Anwendungsfall besteht für Endanwender weniger Anreiz, das System zu täuschen, sodass Kunden sich für hochautomatisierte Workflows entscheiden und aufgrund der hohen verwirrenden Variation möglicherweise zulassen, dass Treffer niedrigere Ähnlichkeitswerte aufweisen (z. B. 80).

Design der Rekognition-Gesichtserkennung

Machine Learning: Rekognition-Gesichtserkennung wird mithilfe von ML- und Computer Vision-Technologien entwickelt. Das funktioniert wie folgt: (1) Suchen Sie den Teil eines Eingabebildes, der das Gesicht enthält. (2) Extrahieren Sie den Bildbereich, der den Kopf enthält, und richten Sie den Bereich so aus, dass sich das Gesicht in einer „normalen“ vertikalen Position befindet. Zugeschnittene Gesichtsbilder werden ausgegeben. (3) Wandeln Sie jedes zugeschnittene Gesichtsbild in einen „Gesichtsvektor“ um (technisch gesehen eine mathematische Darstellung des Gesichtsbildes). Beachten Sie, dass es sich bei den von SearchFaces durchsuchten Sammlungen um Sätze von Gesichtsvektoren handelt, nicht um Sätze von Gesichtsbildern. (4) Vergleichen Sie die Quell- und Ziel-Gesichtsvektoren und geben Sie den Ähnlichkeitswert des Systems für die Gesichtsvektoren zurück. Einzelheiten zu den API-Aufrufen finden Sie in der Entwicklerdokumentation.

Leistungserwartungen: Individuelle und verwirrende Abweichungen unterscheiden sich je nach Kundenanwendung. Dies bedeutet, dass sich die Leistung auch zwischen Anwendungen unterscheidet, auch wenn sie denselben Anwendungsfall unterstützen. Stellen Sie sich zwei Anwendungen zur Identitätsprüfung vor: A und B. Bei jeder Anwendung registriert ein Benutzer zunächst seine Identität mit einem Bild im Passformat und verifiziert seine Identität später mithilfe von Selfies in Echtzeit. Anwendung A ermöglicht den Smartphone-Zugriff, indem mithilfe der Smartphone-Kamera Selfies aufgenommen werden, die gut beleuchtet, scharf, von vorne positioniert, hochauflösend und nicht verdeckt sind. Anwendung B ermöglicht den Zugang zu Gebäuden, indem eine Türkamera verwendet wird, um Selfies aufzunehmen, die weniger gut ausgeleuchtet, verschwommen sind und eine geringere Auflösung haben. Da A und B unterschiedliche Eingaben haben, werden sie wahrscheinlich unterschiedliche Fehlerraten bei der Gesichtserkennung aufweisen, selbst wenn davon ausgegangen wird, dass jede Anwendung mithilfe von Rekognition perfekt bereitgestellt wird.

Testgetriebene Methodik: Wir verwenden mehrere Datensätze, um die Leistung zu bewerten. Kein einziger Bewertungsdatensatz bietet ein absolutes Bild der Leistung. Das liegt daran, dass die Bewertungsdatensätze je nach demografischer Zusammensetzung (Anzahl und Art der definierten Gruppen), dem Ausmaß der verwirrenden Variationen (Qualität der Inhalte, Eignung für den Zweck), der Art und Qualität der verfügbaren Labels und anderen Faktoren variieren. Wir messen die Rekognitionsleistung, indem wir sie an Bewertungsdatensätzen testen, die Bildpaare derselben Person (übereinstimmende Paare) und Bildpaare verschiedener Personen (nicht übereinstimmende Paare) enthalten. Wir wählen einen Ähnlichkeitsschwellenwert, verwenden Rekognition, um den Ähnlichkeitswert jedes Paares zu berechnen, und bestimmen anhand des Schwellenwerts, ob das Paar übereinstimmt oder nicht. Die Gesamtleistung eines Datensatzes wird durch zwei Zahlen dargestellt: die wahre Übereinstimmungsrate (der Prozentsatz der übereinstimmenden Paare mit einer Ähnlichkeit über dem Schwellenwert) und die wahre Nichtübereinstimmungsrate (der Prozentsatz der nicht übereinstimmenden Paare mit einem Ähnlichkeitswert unter dem Schwellenwert). Wenn Sie den Ähnlichkeitsschwellenwert ändern, ändern sich die Quoten für echte Übereinstimmungen und echte Nichtübereinstimmungen. Gruppen in einem Datensatz können durch demografische Merkmale (z. B. Geschlecht), Störvariablen (z. B. Vorhandensein oder Fehlen von Gesichtsbehaarung) oder eine Mischung aus beidem definiert werden. Verschiedene Bewertungsdatensätze variieren je nach diesen und anderen Faktoren. Aus diesem Grund variieren die tatsächlichen Übereinstimmungsraten und Nichtübereinstimmungsraten – sowohl insgesamt als auch für Gruppen – von Datensatz zu Datensatz. Unter Berücksichtigung dieser Variation untersucht unser Entwicklungsprozess die Leistung von Rekognition anhand mehrerer Bewertungsdatensätze, ergreift Maßnahmen, um die Quoten für echte Übereinstimmungen und/oder echte Nichtübereinstimmungen für Gruppen zu erhöhen, bei denen Rekognition am schlechtesten abgeschnitten hat, arbeitet daran, die Suite der Bewertungsdatensätze zu verbessern, und wiederholt dann.

Fairness und Voreingenommenheit: Unser Ziel ist es, dass Rekognition-Gesichtserkennung für alle menschlichen Gesichter gut funktioniert. Um dies zu erreichen, verwenden wir den oben beschriebenen iterativen Entwicklungsprozess. Als Teil des Prozesses erstellen wir Datensätze, die eine Vielzahl von menschlichen Gesichtszügen und Hauttönen unter einer Vielzahl von verwirrenden Variationen erfassen. Wir testen routinemäßig anwendungsfallübergreifend Datensätze von Gesichtsbildern, für die wir zuverlässige demografische Angaben wie Geschlecht, Alter und Hautton haben. Wir stellen fest, dass Rekognition bei allen demografischen Merkmalen gut abschneidet. Credo AI, ein Unternehmen, das sich auf verantwortungsvolle KI spezialisiert hat, führte beispielsweise eine Bewertung von Rekognition durch einen Drittanbieter anhand eines Datensatzes zur Identitätsprüfung durch, der hochwertige Bilder von Probanden mit guter Beleuchtung, ohne Unschärfe und ohne Okklusion enthielt. Credo AI beobachtete, dass die niedrigste echte Übereinstimmungsrate in sechs demografischen Gruppen, die nach Hautton und Geschlecht definiert wurden, bei 99,94816% lag und dass die niedrigste echte Nichtübereinstimmungsrate in allen sechs Gruppen bei 99,99995% lag, wobei der Ähnlichkeitsschwellenwert auf 95 festgelegt wurde. Da die Leistungsergebnisse von einer Vielzahl von Faktoren abhängen, darunter Rekognition, dem Kundenworkflow und dem Bewertungsdatensatz, empfehlen wir Kunden, Rekognition mit ihren eigenen Inhalten zusätzlich zu testen.

Erklärbarkeit: Wenn Kunden Fragen zum Ähnlichkeitswert haben, der von Rekognition für ein bestimmtes Paar von Quell- und Zielbildern zurückgegeben wurde, empfehlen wir Kunden, die von Rekognition zurückgegebenen Informationen zum Begrenzungsrahmen und zu den markanten Gesichtspunkten zu verwenden, um die Gesichtsbilder direkt zu überprüfen.

Robustheit: Wir maximieren die Robustheit mit einer Reihe von Techniken, einschließlich der Verwendung großer Trainingsdatensätze, die viele Arten von Variationen bei vielen Personen erfassen. Da Rekognition nicht gleichzeitig eine sehr hohe Sensitivität für kleine Unterschiede zwischen verschiedenen Personen (z. B. eineiige Zwillinge) und gleichzeitig eine sehr geringe Empfindlichkeit gegenüber störenden Veränderungen (wie Make-up zur Verbesserung der Wangenknochen) haben kann, müssen Kunden Erwartungen an echte Übereinstimmungsraten und echte Nichtübereinstimmungsraten festlegen, die ihrem Anwendungsfall angemessen sind, und die Workflow-Leistung, einschließlich ihrer Wahl des Ähnlichkeitsschwellenwerts, an ihren Inhalten testen.

Datenschutz und Sicherheit: Rekognition-Gesichtserkennung verarbeitet drei Arten von Daten: Kundeneingabebilder, Gesichtsvektoren von Eingabebildern sowie Ausgabeähnlichkeitswerte und Ausgabemetadaten. Gesichtsvektoren sind niemals in der vom Service zurückgegebenen Ausgabe enthalten. Ein- und Ausgänge werden niemals von Kunden gemeinsam genutzt. Kunden können sich über AWS Organizations oder andere von uns bereitgestellte Abmeldemechanismen von Schulungen zu Kundeninhalten abmelden. Weitere Informationen finden Sie in Abschnitt 50.3 der AWS-Servicebedingungen und in den häufig gestellten Fragen zum AWS-Datenschutz. Servicespezifische Datenschutz- und Sicherheitsinformationen finden Sie im Abschnitt Datenschutz in den häufig gestellten Fragen zu Rekognition und in der Dokumentation zu Amazon Rekognition Security.

Transparenz: Wo es für ihren Anwendungsfall angemessen ist, sollten Kunden, die Amazon-Rekognition-APIs für den Gesichtsabgleich in ihre Workflows integrieren, erwägen, Endbenutzern und anderen Personen, die von der Anwendung betroffen sind, ihre Verwendung von ML- und Gesichtserkennungstechnologie offenzulegen und ihren Endbenutzern die Möglichkeit zu geben, Feedback zur Verbesserung der Workflows abzugeben. In ihrer Dokumentation können Kunden auch auf diese KI-Servicekarte verweisen.

Unternehmensführung: Wir verfügen über strenge Methoden, um unsere AWS-KI-Services auf verantwortungsvolle Weise aufzubauen. Dazu gehören ein rückwärts arbeitender Produktentwicklungsprozess, der verantwortungsvolle KI in der Entwurfsphase einbezieht, Designberatungen und Implementierungsbewertungen durch engagierte Experten für verantwortungsvolle KI in Wissenschaft und Daten, Routinetests, Kundenrezensionen sowie Entwicklung, Verbreitung und Schulung von bewährten Verfahren.

Best Practices für Bereitstellung und Leistungsoptimierung

Wir empfehlen unseren Kunden, ihre Anwendungen verantwortungsbewusst zu entwickeln und zu betreiben, wie im AWS-Leitfaden zur verantwortungsvollen Nutzung von Machine Learning beschrieben. Dazu gehört die Implementierung verantwortungsvoller KI-Praktiken, um wichtige Aspekte wie Fairness und Voreingenommenheit, Robustheit, Erklärbarkeit, Datenschutz und Sicherheit, Transparenz und Unternehmensführung anzugehen.
 
Workflow-Design: Die Genauigkeit jeder Anwendung, die Rekognition-Gesichtsabgleich verwendet, hängt vom Design des Kunden-Workflows ab. Dazu gehören: (1) die Anzahl der einzelnen Personen, die zugeordnet werden, (2) die zulässige Menge an verwirrenden Variationen, (3) Auswahl von Ähnlichkeitsschwellenwerten, (4) wie Übereinstimmungen entschieden werden, (5) wie konsistent der Workflow auf demografische Gruppen angewendet wird und (6) regelmäßige Wiederholungstests auf Abweichungen.
 
  1. Individuelle Variation: Bei der Suche nach einem Ausgangsgesicht in einer Sammlung von Zielgesichtern steigt der Erfolg mit dem Grad der körperlichen Unähnlichkeit zwischen den verschiedenen Personen in der Zielgruppe. Zum Beispiel ist der Vergleich zwischen eineiigen Zwillingen wesentlich schwieriger als der Vergleich zwischen zweieiigen Zwillingen oder nicht verwandten Personen. Im Allgemeinen besteht bei Zielsammlungen mit einer größeren Anzahl von Einzelpersonen ein höheres Risiko, dass zwei einzigartige Personen vorhanden sind, die sich ähneln, und erfordern mehr Sorgfalt bei der endgültigen Entscheidung über einen Treffer. Workflows sollten bei der Interpretation der für Quellbilder zurückgegebenen Ähnlichkeitswerte die mögliche Ähnlichkeit von Personen in der Zielsammlung berücksichtigen.

  2. Verwirrende Variationen: Bei der Auswahl von Quell- und Zielbildpaaren sollten Arbeitsabläufe Schritte zur Minimierung von Abweichungen zwischen Quell- und Zielbild (z. B. unterschiedliche Lichtverhältnisse) beinhalten. Wenn die Variation hoch ist, sollten Sie erwägen, für jede Zielperson mehrere Gesichtsbilder („Optionen“) hinzuzufügen, die die erwarteten Variationen (wie Posen, Beleuchtung und Alter) abdecken, und das Quellgesichtsbild mit jeder Zieloption zu vergleichen. Wenn es praktisch ist, nur eine einzige Option zu haben, sollten Sie erwägen, einen nach vorne gerichteten, nicht verdeckten Headshot im Reisepass-Stil zu verwenden. Workflows sollten Richtlinien für zulässige Eingabebilder festlegen und deren Einhaltung durch regelmäßige und zufällige Stichproben von Eingaben überwachen.

  3. Ähnlichkeitsschwelle: Es ist wichtig, einen geeigneten Ähnlichkeitsschwellenwert für die Anwendung festzulegen. Andernfalls könnte der Workflow zu dem Schluss kommen, dass es eine Übereinstimmung gibt, bei der es keine gibt (eine falsche Übereinstimmung) oder umgekehrt (eine falsche Nichtübereinstimmung). Die Kosten einer falschen Übereinstimmung entsprechen möglicherweise nicht den Kosten einer falschen Nichtübereinstimmung. Beispielsweise kann ein geeigneter Ähnlichkeitsschwellenwert für die Authentifizierung viel höher sein als der für Medien. Um einen geeigneten Ähnlichkeitsschwellenwert festzulegen, sollte ein Kunde einen repräsentativen Satz von Eingabepaaren zusammenstellen, jedes als übereinstimmend oder nicht übereinstimmend kennzeichnen und höhere oder niedrigere Ähnlichkeitsschwellenwerte ausprobieren, bis sie erreicht sind.

  4. Menschliche Aufsicht: Wenn der Anwendungsworkflow eines Kunden einen risikoreichen oder sensiblen Anwendungsfall beinhaltet, wie z. B. eine Entscheidung, die sich auf die Rechte einer Person oder den Zugang zu wichtigen Services auswirkt, sollte die menschliche Überprüfung gegebenenfalls in den Anwendungsablauf einbezogen werden. Gesichtsvergleichssysteme können als Hilfsmittel dienen, um den Aufwand zu verringern, der durch vollständig manuelle Lösungen entsteht, und ermöglichen es Menschen, mögliche Übereinstimmungen und Nichtübereinstimmungen zügig zu überprüfen und zu bewerten.

  5. Konsistenz: Kunden sollten Richtlinien festlegen und durchsetzen, welche Arten von Quell- und Zielbildern zulässig sind und wie Menschen die Verwendung von Ähnlichkeitsschwellenwerten mit ihrem eigenen Urteilsvermögen kombinieren, um Übereinstimmungen zu ermitteln. Diese Richtlinien sollten für alle demografischen Gruppen einheitlich sein. Eine inkonsistente Änderung von Quell- und Zielbildern oder Ähnlichkeitsschwellen kann zu unfairen Ergebnissen für verschiedene demografische Gruppen führen.

  6. Leistungsabweichung: Eine Änderung der Art der Bilder, die ein Kunde an Rekognition übermittelt, oder eine Änderung des Dienstes kann zu unterschiedlichen Ergebnissen führen. Um diesen Änderungen Rechnung zu tragen, sollten Kunden erwägen, die Leistung von Rekognition regelmäßig erneut zu testen und ihren Arbeitsablauf gegebenenfalls anzupassen.

Weitere Informationen

  • Wenn Sie Fragen oder Feedback zu AWS-KI-Servicekarten haben, füllen Sie bitte dieses Formular aus.

Glossar

Fairness und Vorbehalte beziehen sich darauf, wie sich ein KI-System auf verschiedene Subpopulationen von Nutzern auswirkt (z. B. nach Geschlecht, ethnischer Zugehörigkeit).

Erklärbarkeit bezieht sich auf Mechanismen, um die Ergebnisse eines KI-Systems zu verstehen und zu bewerten.

Robustheit bezieht sich auf Mechanismen, die sicherstellen, dass ein KI-System zuverlässig funktioniert.

Datenschutz und Sicherheit beziehen sich auf Daten, die vor Diebstahl und Offenlegung geschützt werden.

Governancebezieht sich auf Prozesse zur Definition, Implementierung und Durchsetzung verantwortungsvoller KI-Praktiken innerhalb einer Organisation.

Transparenz bezieht sich auf die Weitergabe von Informationen über ein KI-System, damit die Beteiligten fundierte Entscheidungen über ihre Nutzung des Systems treffen können.