Allgemeines

F: Was ist Amazon Textract?

Amazon Textract ist ein Dokumentanalysedienst, der gedruckten Text, Handschrift, strukturierte Daten (z. B. die relevanten Felder und die zugehörigen Werte) und Tabellen aus Bildern und Scans von Dokumenten erkennt und extrahiert. Die Machine-Learning-Modelle von Amazon Textract wurden an Millionen von Dokumenten trainiert, so dass praktisch jeder von Ihnen hochgeladene Dokumententyp automatisch erkannt und für die Textextraktion verarbeitet wird. Wenn Informationen aus Dokumenten extrahiert werden, gibt der Service einen Konfidenzwert für jedes erkannte Element zurück, damit Sie fundierte Entscheidungen über die Art und Weise der Verwendung dieser Ergebnisse treffen können. Wenn Sie beispielsweise Informationen aus Steuerdokumenten extrahieren, können Sie benutzerdefinierte Regeln festlegen, um alle extrahierten Informationen mit einem Konfidenzwert von weniger als 95 % zu kennzeichnen. Außerdem werden alle extrahierten Daten mit Begrenzungsrahmen-Koordinaten zurückgegeben, d. h. mit einem rechteckigen Rahmen, der die einzelnen identifizierten Daten vollständig umschließt, so dass Sie schnell erkennen können, wo ein Wort oder eine Zahl in einem Dokument erscheint. Sie können auf diese Funktionen mit der Amazon-Textract-API, in der AWS-Managementkonsole oder über die AWS Command Line Interface (CLI) zugreifen.

F: Was sind die häufigsten Anwendungsfälle für Amazon Textract?

Die häufigsten Anwendungsfälle für Amazon Textract umfassen:

  • Importieren von Dokumenten und Formularen in Geschäftsanwendungen
  • Erstellen intelligenter Suchindizes 
  • Erstellen automatisierter Dokumentenverarbeitungs-Workflows
  • Einhaltung der Compliance in Dokumentarchiven
  • Extraktion von Text für die natürliche Sprachverarbeitung (NLP)
  • Extraktion von Text für die Klassifizierung von Dokumenten

F: Welche Arten von Text kann Amazon Textract erkennen und extrahieren?

Amazon Textract kann gedruckten Text und Handschrift aus dem englischen Standardalphabet sowie ASCII-Symbole erkennen. Amazon Textract kann gedruckten Text, Formulare und Tabellen in Englisch, Deutsch, Französisch, Spanisch, Italienisch und Portugiesisch extrahieren. Amazon Textract extrahiert explizit gekennzeichnete Daten sowie implizite Daten und Einzelposten aus Auflistungen von Waren oder Dienstleistungen aus fast jeder Rechnung oder jedem Beleg in englischer Sprache ohne Vorlagen oder Konfiguration. Amazon Textract kann auch spezifische oder implizite Daten wie Namen und Adressen aus englischsprachigen Identitätsdokumenten wie US-Pässen und Führerscheinen extrahieren, ohne dass Vorlagen oder Konfigurationen erforderlich sind. Schließlich kann Amazon Textract anhand von Abfragen in englischer Sprache beliebige Daten aus Dokumenten extrahieren, ohne dass Sie sich um die Struktur oder Variationen der Daten im Dokument kümmern müssen.

F: Welche Dokumentenformate werden von Amazon Textract unterstützt?

Amazon Textract unterstützt derzeit die Formate PNG, JPEG, TIFF und PDF. Bei synchronen APIs können Sie Bilder entweder als S3-Objekt oder als Byte-Array übermitteln. Bei asynchronen APIs können Sie S3-Objekte übermitteln. Wenn Ihr Dokument bereits in einem der von Amazon Textract unterstützten Dateiformate (PDF, TIFF, JPG, PNG) vorliegt, konvertieren oder verkleinern Sie es nicht, bevor Sie es in Amazon Textract hochladen.

F: Was sind die ersten Schritte mit Amazon Textract?

Um mit Amazon Textract zu beginnen, können Sie auf der Amazon-Textract-Seite auf die Schaltfläche „Erste Schritte mit Amazon Textract“ klicken. Hierfür ist ein Amazon-Web-Services-Konto erforderlich. Wenn Sie noch kein Konto besitzen, werden Sie während des Vorgangs zur Erstellung eines Kontos aufgefordert. Sobald Sie bei Ihrem AWS-Konto angemeldet sind, können Sie Amazon Textract mit Ihren eigenen Bildern oder PDF-Dokumenten über die Amazon-Textract-Managementkonsole ausprobieren. Sie können auch die Amazon Textract SDKs herunterladen, um Ihre eigenen Anwendungen zu erstellen. Schritt-für-Schritt-Anweisungen finden Sie im Handbuch „Erste Schritte“.

F: Welche APIs bietet Amazon Textract?

Amazon Textract bietet APIs, die gedruckten Text und Handschrift aus gescannten Dokumentenbildern erkennen und extrahieren, strukturierte Daten wie Tabellen extrahieren sowie die Erstellung von Schlüssel-Wert-Paaren aus extrahiertem Text durchführen. Zudem werden separate APIs mit Schwerpunkt auf der Extraktion von Daten aus Rechnungen, Quittungen und Ausweisdokumenten bereitgestellt.

Amazon Textract führt OCR unter Verwendung der Detect Document Text API durch, geht aber bei der Dokumentenanalyse noch einen Schritt weiter und führt auch die Erkennung von Schlüssel-Wert-Paaren durch, damit die Textextraktionen in ihrer vorgesehenen Struktur organisiert bleiben. Die Analyze Document API kann gedruckten Text, Handschrift, Felder, Werte, ihre Beziehungen, Tabellen und andere Entitäten in einem Dokument zusammen mit den zugehörigen Konfidenzwerten erkennen. Mit der Analyze Document API können Entwickler automatisch strukturierte Daten aus einer Vielzahl von Dokumenten erfassen, darunter Steuerformulare, Finanzberichte, Krankenakten und Kreditanträge. Die Analyze Document API bietet Entwicklern auch die Flexibilität, mit Hilfe von Abfragen die aus Dokumenten zu extrahierenden Daten anzugeben, ohne dass die Struktur der Daten oder Variationen der Art und Weise, wie die Daten in verschiedenen Formaten und Versionen des Dokuments angeordnet sind, berücksichtigt werden muss. Die Analyze Expense API kann Lieferantennamen auf Belegen auch dann erkennen, wenn diese nur in einem Logo auf der Seite angegeben und nicht mit einer expliziten Beschriftung namens „Lieferant“ versehen sind. Sie ist außerdem in der Lage, Artikel, Mengen und Preise zu erkennen und zu extrahieren, die nicht mit Spaltenüberschriften für Einzelposten versehen sind. Mit der Analyze Expense API können Entwickler beim Extrahieren von Daten aus Rechnungen und Quittungen normalisierte Schlüsselnamen und Spaltenüberschriften verwenden, so dass nachgelagerte Anwendungen die Ergebnisse aus vielen Dokumenten problemlos vergleichen können. Die Analyze ID API versteht den Kontext von Identitätsdokumenten wie US-Pässen und Führerscheinen, ohne dass Vorlagen oder Konfigurationen erforderlich sind. Mit Analyze ID können Unternehmen, die Dienstleistungen zur Identitätsüberprüfung anbieten, sowie Unternehmen aus dem Finanz-, Gesundheits- und Versicherungswesen auf einfache Weise die Erstellung von Konten, Terminvereinbarungen, Bewerbungen und vieles mehr automatisieren, indem sie ihren Kunden die Möglichkeit geben, ein Bild oder einen Scan ihres Ausweises einzureichen. Weitere Informationen finden Sie in der Referenz zur Amazon Textract API.

F: Welche Funktionen bietet die Analyze Document API?

Die Analyze Document API bietet die drei Funktionen Forms, Tables und Queries. Sie können diese Funktionen unabhängig voneinander oder in beliebiger Kombination verwenden. Verwenden Sie die Funktion Forms, um Daten wie Schlüssel-Wert-Paare (z. B. „Vorname“ und den zugehörigen Wert: „Jane Smith“) zu extrahieren. Verwenden Sie die Funktion Tables für die Extraktion von Tabellendaten, die in Spalten und Zeilen organisiert sind. Verwenden Sie die Funktion Queries, um die benötigten Informationen eines Dokuments in Form von Fragen in natürlicher Sprache anzugeben (z. B. „Wie lautet der Name des Kunden“) und die Antwort (z. B. „John Doe“) als Teil der Abfragerückmeldung zu erhalten.

F: Wie sollten Kunden ihre Abfragen erstellen/formulieren/gestalten?

Wir haben eine ausführliche Anleitung zur Erstellung von Abfragen als Teil unserer API-Dokumentation auf der Seite für Textract-Ressourcen veröffentlicht. Im Allgemeinen sollten die Kunden beim Erstellen von Abfragen versuchen, Fragen in natürlicher Sprache unter Verwendung von Wörtern aus dem Dokument zu stellen.

F: Gibt es Grenzen für die Anzahl der Abfragen, die ich pro Dokument erstellen kann?

Abfragen werden pro Seite verarbeitet und Informationen können mithilfe der Funktion Queries sowohl über synchrone als auch über asynchrone Vorgänge extrahiert werden. Bei synchronen Vorgängen werden maximal 15 Abfragen pro Seite unterstützt. Bei asynchronen Vorgängen werden maximal 30 Abfragen pro Seite unterstützt.

F: Wie kann ich die besten Ergebnisse mit Amazon Textract erzielen?

Amazon Textract nutzt Machine Learning, um praktisch jede Art von Dokument zu lesen, um gedruckten Text, Handschrift und strukturierte Informationen zu extrahieren. Beachten Sie die folgenden Tipps, um die besten Ergebnisse zu erzielen:

  • Vergewissern Sie sich, dass Ihr Dokument eine von Amazon Textract unterstützte Sprache verwendet. (Derzeit werden Englisch, Spanisch, Italienisch, Portugiesisch, Französisch und Deutsch unterstützt. Handschrift, Rechnungen und Quittungen sowie Ausweisdokumente und die Bearbeitung von Anfragen werden nur in englischer Sprache unterstützt.)
  • Stellen Sie ein möglichst hochwertiges Bild zur Verfügung, idealerweise mit mindestens 150 DPI.
  • Wenn Ihr Dokument bereits in einem der von Amazon Textract unterstützten Dateiformate (PDF, JPG, PNG) vorliegt, konvertieren oder verkleinern Sie es nicht, bevor Sie es in Amazon Textract hochladen.
  • Die Funktion Tables von Amazon Textract funktioniert am besten, wenn die Tabellen in Ihrem Dokument visuell von den umgebenden Elementen auf der Seite getrennt sind (z. B. nicht von einem Bild oder einem komplexen Muster überlagert werden) und der Text innerhalb der Tabelle aufrecht steht (z. B. nicht relativ zum anderen Text auf der Seite gedreht ist).

Mit nur wenigen Klicks können Sie in der Amazon-Textract-Managementkonsole mit der Analyse Ihrer eigenen Dokumente mit Amazon Textract beginnen. Wenn Sie Probleme haben, eine hohe Genauigkeit bei Quittungen, Identitätsdokumenten oder industriellen Diagrammen zu erreichen, kontaktieren Sie uns bitte unter amazon-textract@amazon.com.

F: Wie verwende ich den von Amazon Textract bereitgestellten Konfidenzwert?

Der Konfidenzwert ist eine Zahl zwischen 0 und 100, die auf die Wahrscheinlichkeit hinweist, dass eine bestimmte Vorhersage zutrifft. Mit Amazon Textract werden alle strukturierten Daten sowie der gesamte extrahierte gedruckte und handschriftliche Text mit Begrenzungsrahmen-Koordinaten zurückgegeben, d. h. mit einem rechteckigen Rahmen, der alle erkannten Daten vollständig umschließt. Auf diese Weise können Sie den Konfidenzwert für jede extrahierte Entität ermitteln, damit Sie fundierte Entscheidungen über die Art und Weise der Verwendung der Ergebnisse treffen können.

F: Wie kann ich Vorhersagen von Amazon Textract durch Menschen überprüfen lassen?

Amazon Textract ist direkt in Amazon Augmented AI (A2I) integriert, sodass Sie von Amazon Textract getroffene Vorhersagen mit geringer Konfidenz einer Prüfung durch Menschen unterziehen lassen können. Mithilfe der Amazon-Textract-API für die Formulardatenextraktion und der Amazon-A2I-Konsole können Sie die Bedingungen festlegen, unter denen Vorhersagen von Amazon A2I an Prüfer weitergeleitet werden. Dabei kann es sich entweder um einen Konfidenzschwellenwert oder einen Prozentsatz für Zufallsstichproben handeln. Wenn Sie einen Konfidenzschwellenwert festlegen, leitet Amazon A2I nur Vorhersagen mit einem Wert unter diesem Schwellenwert an die Prüfer weiter. Diese Schwellenwerte lassen sich jederzeit anpassen, sodass Sie den richtigen Kompromiss aus Genauigkeit und Kosten finden können. Alternativ können Sie einen Prozentsatz für Stichproben festlegen. Dann leitet Amazon A2I zufällige Stichproben an die Prüfer weiter. Auf diese Weise lassen sich Prüfungen für die regelmäßige Überwachung der Vorhersagegenauigkeit implementieren. Amazon A2I bietet Prüfern zudem eine Weboberfläche mit allen nötigen Anweisungen und Tools für ihre Prüfaufgaben. Weitere Informationen zur Implementierung der Überprüfung durch Menschen mit Amazon Textract finden Sie auf der Website zu Amazon A2I.

F: In welchen AWS-Regionen ist Amazon Textract verfügbar?

Amazon Textract ist derzeit in den Regionen USA-Ost (Nord-Virginia), USA-Ost (Ohio), USA-West (Oregon), USA-West (Nordkalifornien), AWS GovCloud (USA-West), AWS GovCloud (USA-Ost), Kanada (Zentral), EU (Irland), EU (London), EU (Frankfurt), EU (Paris), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Seoul) und Asien-Pazifik (Mumbai) verfügbar.

F: Funktioniert Amazon Textract mit AWS CloudTrail?

Ja. Amazon Textract unterstützt die Protokollierung der folgenden Aktionen als CloudTrail-Ereignisse - DetectDocumentText, AnalyzeDocument, StartDocumentTextDetection, StartDocumentAnalysis, GetDocumentTextDetection und GetDocumentAnalysis. Weitere Einzelheiten finden Sie unter Protokollierung von Amazon-Textract-API-Aufrufen mit AWS CloudTrail.

Fakturierung

F: Wie zählt Amazon Textract die Anzahl der verarbeiteten Seiten?

Ein Bild (PNG, TIFF oder JPEG) zählt als eine einzelne Seite. Bei PDF-Dokumenten wird jede Seite des Dokuments als eine verarbeitete Seite gezählt.

F: Welche APIs werden mir bei Amazon Textract in Rechnung gestellt?

Weitere Informationen zur Preisgestaltung finden Sie auf der Seite Preisübersicht zu Amazon Textract.

F: Wie viel kostet Amazon Textract?

Amazon Textract berechnet Ihnen die Anzahl der verarbeiteten Seiten und Bilder. Weitere Informationen finden Sie auf der Seite Preisübersicht.

F: Ist Amazon Textract Teil des kostenlosen AWS-Kontingents?

Ja. Im Rahmen des kostenlosen AWS-Kontingents können Sie Amazon Textract zum Einstieg kostenlos verwenden. Das kostenlose Kontingent dauert drei Monate und neue AWS-Kunden können bis zu Folgendes analysieren:

Detect Document Text API: 1 000 Seiten pro Monat
Analyze Document API:

  • 100 Seiten pro Monat bei Verwendung der Formular- oder Tabellenfunktion
  • Zusätzliche 100 Seiten pro Monat bei Verwendung der Abfragefunktion NEU

Analyze Expense API: 100 Seiten pro Monat
Analyze ID API: 100 Seiten pro Monat

F: Sind Steuern bereits in den Preisen enthalten?

Einzelheiten zu Steuern finden Sie unter Amazon Web Services – Steuerhilfe.

Datenschutz

F: Werden die von Amazon Textract verarbeiteten Dokumente und Bilder gespeichert, und wie werden sie von AWS verwendet?

Amazon Textract speichert und verwendet die verarbeiteten Dokument- und Bildereingaben ausschließlich, um den Service bereitzustellen und zu pflegen sowie um die Qualität von Amazon Textract und anderen Machine-Learning-Technologien/Technologien der künstlichen Intelligenz von Amazon zu verbessern und weiterzuentwickeln. Die Nutzung Ihrer Inhalte ist für die kontinuierliche Verbesserung Ihrer Amazon-Textract-Kundenerfahrung erforderlich, einschließlich der Entwicklung und des Trainings entsprechender Technologien. Wir verwenden keine personenbezogenen Informationen, die in Ihren Inhalten enthalten sein können, um Produkte, Services oder Marketingmaterialien auf Sie oder Ihre Endbenutzer auszurichten. Ihr Vertrauen, der Schutz Ihrer Daten und die Sicherheit Ihrer Inhalte sind unser größtes Anliegen, und wir setzen geeignete und innovative technische und physische Kontrollmethoden ein, einschließlich Verschlüsselung im Ruhezustand und während der Übertragung, um unerlaubten Zugriff oder die unerlaubte Veröffentlichung Ihrer Inhalte zu vermeiden und sicherzustellen, dass wir Ihre Daten nur in Übereinstimmung mit unseren Verpflichtungen Ihnen gegenüber verwenden. Weitere Informationen finden Sie unter https://aws.amazon.com/compliance/data-privacy-faq/. Mithilfe der Opt-Out-Möglichkeiten von AWS Organizations können Sie die Verwendung Ihrer Dokument- und Bildeingaben zur Verbesserung oder Weiterentwicklung der Qualität von Amazon Textract und anderen Machine-Learning-Technologien/Technologien der künstlichen Intelligenz von Amazon ablehnen. Informationen zu Ihren Opt-Out-Möglichkeiten finden Sie unter Verwaltung der Opt-out-Richtlinie für KI-Services.

F: Werden die von Amazon Textract verarbeiteten Inhalte an einen Ort außerhalb der AWS-Region verlagert, in der ich Amazon Textract verwende?

Alle von Amazon Textract verarbeiteten Inhalte werden im Ruhezustand in der AWS-Region verschlüsselt und gespeichert, in der Sie Amazon Textract verwenden. Sofern Sie nicht wie unten angegeben Ihre Ablehnung mitteilen, kann ein Teil der von Amazon Textract verarbeiteten Inhalte in einer anderen AWS-Region gespeichert werden, und zwar ausschließlich im Zusammenhang mit der kontinuierlichen Verbesserung und Entwicklung Ihrer Amazon-Textract-Kundenerfahrung und anderer Amazon Technologien hinsichtlich Maschine Learning / künstliche Intelligenz. Um Bild- und Videoeingaben löschen zu lassen, die Ihrem Konto zugeordnet sind, wenden Sie sich bitte an den AWS Support. Ihr Vertrauen, der Schutz Ihrer Daten und die Sicherheit Ihrer Inhalte sind unser größtes Anliegen, und wir setzen geeignete und innovative technische und physische Kontrollmethoden ein, einschließlich Verschlüsselung im Ruhezustand und während der Übertragung, um unerlaubten Zugriff oder die unerlaubte Veröffentlichung Ihrer Inhalte zu vermeiden und sicherzustellen, dass wir Ihre Daten nur in Übereinstimmung mit unseren Verpflichtungen Ihnen gegenüber verwenden. Weitere Informationen finden Sie unter https://aws.amazon.com/compliance/data-privacy-faq/. Ihre Inhalte werden nicht in einer anderen AWS-Region gespeichert, wenn Sie die Option deaktivieren, dass Ihre Inhalte zur Verbesserung und Entwicklung der Qualität von Amazon Textract und anderen Amazon-Technologien hinsichtlich Machine Learning/künstliche Intelligenz verwendet werden. Informationen zu Ihren Opt-Out-Möglichkeiten finden Sie unter Verwaltung der Opt-out-Richtlinie für KI-Services.

F: Kann ich von Amazon Textract gespeicherte Bilder und Dokumente löschen?

Ja. Um Dokument- und Bildeingaben löschen zu lassen, die Ihrem Konto zugeordnet sind, wenden Sie sich bitte an den AWS Support. Durch das Löschen von Bild- und Dokumenteingaben verringert sich möglicherweise die Qualität Ihrer Amazon-Textract-Erfahrung.

F: Wer hat Zugriff auf meine Inhalte, die von Amazon Textract verarbeitet und gespeichert werden?

Nur autorisierte Mitarbeiter haben Zugriff auf Ihre Inhalte, die von Amazon Textract verarbeitet werden. Ihr Vertrauen, der Schutz Ihrer Daten und die Sicherheit Ihrer Inhalte sind unser größtes Anliegen, und wir setzen geeignete und innovative technische und physische Kontrollmethoden ein, einschließlich Verschlüsselung im Ruhezustand und während der Übertragung, um unerlaubten Zugriff oder die unerlaubte Veröffentlichung Ihrer Inhalte zu verhindern und sicherzustellen, dass wir Ihre Daten nur in Übereinstimmung mit unseren Verpflichtungen Ihnen gegenüber verwenden. Weitere Informationen finden Sie unter https://aws.amazon.com/compliance/data-privacy-faq/.

F: Bleibe ich weiterhin Eigentümer der Inhalte, die durch Amazon Textract verarbeitet und gespeichert werden?

Ja. Sie bleiben weiterhin Eigentümer Ihrer Inhalte. Wir verwenden Ihre Inhalte ausschließlich mit Ihrer Zustimmung.

F: Ist Amazon Textract für HIPAA qualifiziert?

Ja, AWS hat sein HIPAA-Compliance-Programm auf Amazon Textract als HIPAA-fähigen Service ausgeweitet. Wenn Sie eine aktive Geschäftspartnervereinbarung (BAA) mit AWS haben, können Sie Amazon Textract zum Extrahieren von Text einschließlich geschützter Gesundheitsinformationen (Protected Health Information, PHI) aus Bildern verwenden.

Weitere Informationen zur HIPAA-Konformität »

F: Welche Compliance-Programme gelten für Amazon Textract?

Textract ist HIPAA-fähig und erfüllt die Anforderungen von PCI, ISO und SOC. Weitere Informationen finden Sie unter AWS Artifact in der AWS-Managementkonsole oder unter https://aws.amazon.com/compliance/services-in-scope/. Textract unterstützt auch Amazon Virtual Private Cloud (Amazon VPC)-Endpunkte über AWS PrivateLink, wodurch Kunden API-Aufrufe an Amazon Textract sicher von ihrem VPC aus initiieren und die Nutzung des öffentlichen Internets vermeiden können.

Standard Product Icons (Features) Squid Ink
Ausgewählte Kunden

Entdecken Sie die Anwendungsfälle und Erfolgsgeschichten unserer Kunden.

Weitere Informationen 
Sign up for a free account
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Standard Product Icons (Start Building) Squid Ink
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit der Entwicklung mit Amazon Textract in der AWS-Managementkonsole.

Registrieren