Übersicht

Der Amazon-Textract-Service extrahiert gedruckten Text, handschriftliche und strukturierte Daten aus Bildern von Dokumenten. Innerhalb dieses Service liest und extrahiert die AnalyzeID-Funktion strukturierte Textdaten aus Bildern von Ausweisdokumenten, darunter derzeit US-Führerscheine und US-Pässe. Diese Funktion erleichtert es Kunden, ihre Dokumentenverarbeitung zu automatisieren und zu beschleunigen.

AnalyzeID verarbeitet den Text, der in einem Ausweisdokument erscheint, um explizite und implizite Schlüssel-Wert-Paare vorherzusagen. Analyze ID kann explizite Schlüssel-Wert-Paare extrahieren, bei denen ein Schlüssel („Ausstellungsdatum“) auf dem Dokument erscheint und an seinem Wert ausgerichtet ist („18.03.2018“), sowie implizite Schlüssel-Wert-Paare, neben denen möglicherweise keine expliziten Schlüssel stehen („María“ erscheint in der Mitte einer Lizenz, ist aber nicht als „Vorname“ gekennzeichnet). Der Service normalisiert Schlüssel-Wert-Paare zu einer gemeinsamen Taxonomie von 21 bekannten Schlüsseln, sodass Kunden Informationen zwischen ID-Typen vergleichen können. Der Service extrahiert beispielsweise die LIC-Nummer eines Führerscheins und die Reisepassnummer aus einem US-Reisepass und kennzeichnet beide als „Dokument-ID-Nummer“. Um die Genauigkeit von AnalyzeID zu bewerten, vergleichen wir diese Vorhersagen mit Ground Truth. Ground-Truth-Schlüssel und -Werte wurden von einem menschlichen Annotator korrigiert. Jedes vorhergesagte Schlüssel-Wert-Paar ist ein Treffer, wenn die Vorhersage mit Ground Truth übereinstimmt, andernfalls ein Fehlschuss. Qualitätskennzahlen wie Präzision, Erinnerungsvermögen und F1 hängen von der Anzahl der Treffer und Fehlschüsse ab.

Ausweisdokumente unterscheiden sich von Land zu Land (Führerscheine aus Virginia unterscheiden sich von kalifornischen Führerscheinen) und innerhalb der Gerichtsbarkeiten, da jede Gerichtsbarkeit ihre Dokumente im Laufe der Zeit weiterentwickelt. Jede Version eines Identifikationsdokuments kann sich durch die enthaltenen Schlüssel und die für jeden Schlüssel zulässigen Werte unterscheiden. Es gibt auch Faktoren (sogenannte „verwirrende Variation“), die das Erkennen erschweren. Die Dokumententwürfe können komplexe grafische Designs haben, die den Text unterstützen, und glänzende Kunststoff- oder andere Laminate, die den Text überlagern. Dokumente können abgenutzt werden, z. B. wenn sie in einer Handtasche oder Hosentasche mitgeführt werden, wodurch wichtige Informationen verdeckt werden. Schließlich kann das Dokument schlecht beleuchtet, verdeckt sein (z. B. durch einen Teil der Hand, der das Dokument während der Bildgebung hält) oder beim Abbilden nicht gut fokussiert sein. AnalyzeID wurde entwickelt, um Text in diesen Dokumentbildern zu erkennen und die verwirrende Variation zu ignorieren.

Vorgesehene Anwendungsfälle und Einschränkungen

AnalyzeID ist für die Verwendung in von US-Bundesstaaten ausgestellten Führerscheinen und von der US-Regierung ausgestellten Pässen vorgesehen. Es wurde nicht für die Verwendung auf Dokumenten geschult, die von Gebietsregierungen (z. B. Puerto Rico) ausgestellt wurden, oder für andere Identifikationsformen wie globale Einreisekarten oder Geburtsurkunden. AnalyzeID unterstützt Dokumente, die in den letzten fünfzehn Jahren (2007) ausgestellt wurden. Dies umfasst etwa drei Iterationen von Entwurfsupdates auf Bundesstaatsebene, die etwa alle fünf Jahre erfolgen. Dieser Zeitrahmen unterstützt alle noch nicht abgelaufenen Dokumente; US-Führerscheine laufen in höchstens zwölf Jahren ab, und US-Pässe laufen in höchstens zehn Jahren ab.

AnalyzeID ermöglicht den Textextraktionsschritt in einer Vielzahl von vom Kunden entwickelten Anwendungen. Diese Anwendungen unterstützen Endbenutzer in der Regel bei der Erledigung von Online-Aufgaben. Beispielsweise könnte eine Finanzdienstleistungsanwendung neue Benutzer mit weniger Tippfehlern registrieren, indem der Benutzer den Inhalt seines Führerscheins scannen kann. In ähnlicher Weise könnte eine Anwendung für das Gesundheitswesen es Benutzern ermöglichen, ihre Adresse oder andere Kontoinformationen schneller und mit weniger Fehlern bei der Terminplanung zu bestätigen. Anwendungen unterscheiden sich in erster Linie durch 1/ die relevanten Schlüsselwertpaare, 2/ das verwendete Bildaufnahmeverfahren und 3/ die Auflösung der eingereichten Bilder. Bei der Integration von AnalyzeID in einen beliebigen Anwendungsworkflow sollten Kunden einschätzen, ob eine menschliche Aufsicht erforderlich ist, und bei Bedarf die Überprüfung der AnalyzeID-Ergebnisse durch menschliche Prüfer unterstützen.

Entwurf von Textract AnalyzeID

Machine Learning: AnalyzeID wurde mithilfe von ML- und optischen Zeichenerkennungstechnologien (OCR) entwickelt. Es funktioniert wie folgt: AnalyzeID nimmt ein Bild eines Ausweisdokuments als Eingabe. Ein OCR-Modell identifiziert Text im Dokument. Ein zweites maschinell erlerntes Modell verarbeitet das gesamte Dokumentbild plus OCR-Ausgabe, um Feldnamen und Inhalte als Schlüssel-Wert-Paare zurückzugeben. Einzelheiten zu den API-Aufrufen finden Sie in der Entwicklerdokumentation.

Leistungserwartungen: Die verwirrenden Abweichungen unterscheiden sich je nach Kundenanwendung. Dies bedeutet, dass sich die Leistung auch zwischen den Anwendungen unterscheidet. Stellen Sie sich zwei verschiedene Anwendungen A und B zur Namens- und Adressüberprüfung vor. Mit Anwendung A kann ein Gebäudesicherheitsbeauftragter den Namen und die Adresse auf dem Führerschein eines Besuchers mit dem Namen und der Adresse der Person vergleichen, die die Site voraussichtlich besuchen wird. Anwendung B ermöglicht es einem Personalvermittler, während eines Videointerviews persönliche Daten von einem Bewerber zu sammeln. Bei A verwendet der Gebäudesicherheitsbeauftragte einen Dokumentenscanner für Unternehmensausweise, um Lizenzbilder aufzunehmen, die gut beleuchtet, scharf fokussiert und nicht verdeckt sind. Bei B nimmt der Befragte mit seiner eigenen Webcam ein Bild seines Führerscheins auf, während er es in der Hand hält, wodurch das Risiko von Bildunschärfe, Blendung und Okklusionen erhöht wird. Da A und B aufgrund unterschiedlicher Bildaufnahmegeräte und -prozesse unterschiedliche Eingabebildqualitäten haben, werden sie wahrscheinlich unterschiedliche Fehlerraten aufweisen, selbst wenn davon ausgegangen wird, dass jede Anwendung perfekt mit Textract bereitgestellt wird.

Testgetriebene Methodik: Wir verwenden mehrere Datensätze, um die Leistung zu bewerten. Kein einziger Bewertungsdatensatz bietet ein absolutes Bild der Leistung. Das liegt daran, dass die Bewertungsdatensätze je nach demografischer Zusammensetzung (Anzahl und Art der definierten Gruppen), dem Ausmaß der verwirrenden Variationen (Qualität der Inhalte, Eignung für den Zweck), der Art und Qualität der verfügbaren Labels und anderen Faktoren variieren. Wir messen die Leistung von Textract, indem wir es an Bewertungsdatensätzen testen, die Bilder von Ausweisdokumenten enthalten. Die Gesamtleistung eines Datensatzes wird durch den F1-Wert (F1) dargestellt, der den Prozentsatz der vorhergesagten Felder, die korrekt sind (Genauigkeit), gegen den Prozentsatz der richtigen Felder, die in der Vorhersage enthalten sind (Rückruf), abwägt. Die F1-Werte sind durch den Bereich [0,1] begrenzt. Eine Änderung der Konfidenzschwellenwerte für die Schlüssel-Wert-Paare ändert den F1-Wert. Gruppen in einem Datensatz können anhand von Schlüsselattributen (wie Gerichtsbarkeit, Länge des Nachnamens), Störvariablen (wie Grafikdesign-Layout, Bildqualität) oder einer Mischung aus beidem definiert werden. Verschiedene Bewertungsdatensätze variieren je nach diesen und anderen Faktoren. Aus diesem Grund variieren die F1-Werte – sowohl insgesamt als auch für Gruppen – von Datensatz zu Datensatz. Unter Berücksichtigung dieser Variation untersucht unser Entwicklungsprozess die Leistung von AnalyzeID anhand mehrerer Bewertungsdatensätze, ergreift Schritte, um F1 für Gruppen zu erhöhen, bei denen AnalyzeID am schlechtesten abgeschnitten hat, arbeitet daran, die Suite der Bewertungsdatensätze zu verbessern, und wiederholt dann.

Fairness und Voreingenommenheit: Unser Ziel ist es, dass AnalyzeID Textfelder aus Ausweisdokumenten mit hoher Genauigkeit extrahiert, unabhängig von der Gerichtsbarkeit der Lizenz oder den demografischen Merkmalen der Person, die durch das Dokument repräsentiert wird. Um dies zu erreichen, verwenden wir den oben beschriebenen iterativen Entwicklungsprozess. Im Rahmen dieses Prozesses erstellen wir Datensätze, um die verschiedenen Gerichtsbarkeiten (US-Bundesstaaten) und Vorlagen zu erfassen, die von AnalyzeID unter einer Reihe von Bedingungen für die Bildqualität behandelt werden. Wir testen routinemäßig an Datensätzen von Dokumentbildern, für die wir zuverlässige Schlüssel-Wert-Paare haben. Wir stellen fest, dass AnalyzeID in allen Zuständigkeitsbereichen und demografischen Merkmalen gut abschneidet. In einem internen Datensatz, der aus den Vorderseiten von US-Führerscheinen aus 50 Bundesstaaten besteht, liegt die niedrigste F1-Genauigkeit zwischen den Bundesstaaten beispielsweise bei 95 %, und die niedrigste F1-Genauigkeit für demografische Gruppen, die nach Alter, Veteranenstatus und Länge des Nachnamens definiert sind, liegt bei 99 %. Da die Ergebnisse nicht nur von AnalyzeID, sondern auch vom Kundenworkflow und dem Bewertungsdatensatz abhängen, empfehlen wir Kunden, AnalyzeID mit ihren eigenen Inhalten zu testen.

Erklärbarkeit: Kunden haben Zugriff auf die Konfidenzwerte für jedes Textfeld, die sie für die Festlegung von Konfidenzschwellenwerten sowie für ein besseres Verständnis der AnalyzeID-Ausgabe nutzen können. Der vorhergesagte Schlüssel gibt Aufschluss über die Vorhersage für den Wert.

Robustheit: Wir maximieren die Robustheit mit einer Reihe von Techniken, einschließlich der Verwendung großer Trainingsdatensätze, die viele Arten von Variationen in vielen Dokumenten erfassen. Ideale Eingaben für AnalyzeID enthalten Bilder, die relativ frei von Schatten, Blendung oder anderen Hindernissen sind, wobei das Dokument senkrecht innerhalb des Bildrahmens ausgerichtet ist. AnalyzeID-Modelle sind jedoch so trainiert, dass sie auch dann belastbar sind, wenn die Eingaben von den idealen Bedingungen abweichen.

Datenschutz und Sicherheit: AnalyzeID erfasst und verarbeitet Text. Ein- und Ausgänge werden niemals von Kunden gemeinsam genutzt.  Kunden können sich über AWS Organizations oder andere von uns bereitgestellte Abmeldemechanismen von Schulungen zu Kundeninhalten abmelden. Weitere Informationen finden Sie in Abschnitt 50.3 der AWS-Servicebedingungen und in den häufig gestellten Fragen zum AWS-Datenschutz. Servicespezifische Datenschutz- und Sicherheitsinformationen finden Sie im Abschnitt Datenschutz in den häufig gestellten Fragen zu Textract und in der Dokumentation zur Amazon-Textract-Sicherheit.

Transparenz: Wenn es für ihren Anwendungsfall angemessen ist, sollten Kunden, die AnalyzeID in ihren Workflow integrieren, in Betracht ziehen, Endbenutzern und anderen Personen, die von der Anwendung betroffen sind, ihre Verwendung von ML offenzulegen und ihren Endbenutzern die Möglichkeit zu geben, Feedback zur Verbesserung der Arbeitsabläufe abzugeben. In ihrer Dokumentation können Kunden auch auf diese KI-Servicekarte verweisen.

Unternehmensführung: Wir verfügen über strenge Methoden, um unsere AWS-KI-Services auf verantwortungsvolle Weise aufzubauen. Dazu gehören ein rückwärts arbeitender Produktentwicklungsprozess, der verantwortungsvolle KI in der Entwurfsphase einbezieht, Designberatungen und Implementierungsbewertungen durch engagierte Experten für verantwortungsvolle KI in Wissenschaft und Daten, Routinetests, Kundenrezensionen sowie Entwicklung, Verbreitung und Schulung von bewährten Verfahren.

Best Practices für Bereitstellung und Leistungsoptimierung

Wir empfehlen unseren Kunden, ihre Anwendungen verantwortungsbewusst zu entwickeln und zu betreiben, wie im AWS-Leitfaden zur verantwortungsvollen Nutzung von Machine Learning beschrieben. Dazu gehört die Implementierung verantwortungsvoller KI-Praktiken, um wichtige Aspekte wie Fairness und Voreingenommenheit, Robustheit, Erklärbarkeit, Datenschutz und Sicherheit, Transparenz und Unternehmensführung anzugehen.
 
Workflow-Design: Wir definieren Leistung als die Erfahrung von Endbenutzern, die mit einer vom Kunden entwickelten Anwendung interagieren, die AnalyzeID für die Textextraktion enthält. Die Leistung jeder Anwendung, die AnalyzeID verwendet, hängt vom Design des Kunden-Workflows ab. Dazu gehören: (1) Bildvariation, (2) Konfidenzschwellenwerte, (3) menschliche Aufsicht, (4) Workflow-Konsistenz und (5) regelmäßige Tests auf Leistungsabweichungen.
 
  1. Bildvariation: Ideale Bilder sind relativ frei von Schatten, Blendung oder anderen Hindernissen, da das Dokument in einem direkten Winkel aufgenommen und innerhalb des Bildrahmens senkrecht ausgerichtet ist. Kunden können ihre Endanwender mit geeigneten Anleitungen bei der Aufnahme guter Bilder unterstützen.

  2. Konfidenzschwellenwert: Kunden können die Leistung optimieren, indem sie einen Filter oder Schwellenwert für Schlüssel-Wert-Paare festlegen, die von AnalyzeID auf der Grundlage des diesem Paar zugewiesenen Konfidenzwerts erstellt werden. Wählen Sie für eine bessere Genauigkeit einen hohen Schwellenwert. Wählen Sie für eine bessere Erinnerung einen niedrigeren Schwellenwert. Um einen angemessenen Schwellenwert festzulegen, kann ein Kunde einen repräsentativen Satz von Eingaben sammeln, die Textfelder der einzelnen Felder beschriften und höhere oder niedrigere Schwellenwerte ausprobieren, bis er mit dem Benutzererlebnis zufrieden ist.

  3. Menschliche Aufsicht: Wenn der Anwendungsworkflow eines Kunden einen risikoreichen oder sensiblen Anwendungsfall beinhaltet, wie z. B. eine Entscheidung, die sich auf die Rechte einer Person oder den Zugang zu wichtigen Services auswirkt, sollte die menschliche Überprüfung gegebenenfalls in den Anwendungsablauf einbezogen werden. Die automatische Schlüsselwertextraktion mit AnalyzeID kann als Tool dienen, um den Aufwand zu reduzieren, der durch vollständig manuelle Lösungen entsteht, und es Menschen zu ermöglichen, Ausweisdokumente schnell zu überprüfen und zu bewerten.

  4. Konsistenz: Kunden sollten Richtlinien festlegen und durchsetzen, welche Arten von Eingabebildern zulässig sind und wie Menschen die Verwendung von Vertrauensschwellenwerten mit ihrem eigenen Urteilsvermögen kombinieren, um endgültige Ergebnisse zu ermitteln. Diese Richtlinien sollten für alle demografischen Gruppen einheitlich sein. Eine inkonsistente Änderung von Eingabebildern oder Konfidenzschwellen kann zu unfairen Ergebnissen für verschiedene demografische Gruppen führen.

  5. Leistungsabweichung: Eine Änderung der Art von Bildern, die ein Kunde an AnalyzeID übermittelt, oder eine Änderung des Dienstes kann zu unterschiedlichen Ergebnissen führen. Um diesen Änderungen Rechnung zu tragen, sollten Kunden erwägen, die Leistung von Textract regelmäßig erneut zu testen und ihren Arbeitsablauf gegebenenfalls anzupassen.

Weitere Informationen

Glossar

Fairness und Vorbehalte beziehen sich darauf, wie sich ein KI-System auf verschiedene Subpopulationen von Nutzern auswirkt (z. B. nach Geschlecht, ethnischer Zugehörigkeit).

Erklärbarkeit bezieht sich auf Mechanismen, um die Ergebnisse eines KI-Systems zu verstehen und zu bewerten.

Robustheit bezieht sich auf Mechanismen, die sicherstellen, dass ein KI-System zuverlässig funktioniert.

Datenschutz und Sicherheit beziehen sich auf Daten, die vor Diebstahl und Offenlegung geschützt werden.

Governancebezieht sich auf Prozesse zur Definition, Implementierung und Durchsetzung verantwortungsvoller KI-Praktiken innerhalb einer Organisation.

Transparenz bezieht sich auf die Weitergabe von Informationen über ein KI-System, damit die Beteiligten fundierte Entscheidungen über ihre Nutzung des Systems treffen können.