Extrahieren von benutzerdefinierten Entitäten aus Images und Textract-JSON-Dateien mit Amazon Comprehend

Veröffentlicht am: Mar 24, 2022

Amazon Comprehend unterstützt jetzt neben Text, PDFs und Word auch Dokumente in Image-Formaten. Kunden können jetzt benutzerdefinierte Entitätserkennung von Comprehend verwenden, um Entitäten aus Image-Dateien (JPG, PNG, TIFF) zu extrahieren, und sie können Comprehend auch direkt in JSON-Ausgaben von Amazon Textract verwenden, um benutzerdefinierte Entitäten aus Dokumenten zu extrahieren. Mit dieser Einführung können Kunden ihre intelligenten Dokumentenverarbeitungs (IDP)-Workflows vereinfachen, indem sie die Vorteile einer sofort einsatzbereiten Integration zwischen Comprehend und Textract nutzen, um Entitäten aus Dokumenten zu extrahieren. Nachstehend finden Sie eine detaillierte Beschreibung dieser Funktionen:

Benutzerdefiniertes NER für Image-Dateien – Amazon Comprehend hat zuvor den Support der Erkennung benutzerdefinierter Entitäten für PDF- und Word-Dokumente eingeführt (für Details siehe Ankündigung). Ab heute können Kunden mit Comprehend auch Informationen aus Dokumenten in Image-Dateien (JPG, PNG, TIFF) extrahieren, um verschiedene Workflows zur Dokumentenverarbeitung weiter zu unterstützen. Diese Funktion macht die Nachbearbeitung der OCR-Ausgabe vor Abschluss der Entitätsextraktion mit Comprehend überflüssig. Kunden kommentieren und trainieren zunächst ein benutzerdefiniertes Entitätserkennungsmodell für PDF-Dokumente. Das trainierte benutzerdefinierte Entitätserkennungsmodell nutzt sowohl die natürliche Sprache als auch Positionsinformationen (z. B. Koordinaten) des Textes, um benutzerdefinierte Entitäten während der Inferenz genau aus PDF-, Word-, Klartext- und jetzt auch Image-Formaten zu extrahieren. Weitere Details finden Sie in der Dokumentation.

Benutzerdefiniertes NER für JSON-Ausgaben von Textract – Ab heute können Kunden ihre JSON-Ausgaben von Textract DetectDocumentText oder AnalyzeDocument als Eingabe während der benutzerdefinierten NER-Inferenz von Comprehend verwenden. Durch die Nutzung einer vorhandenen Textract-Ausgabe können Kunden ihre Dokumentenverarbeitungs-Workflows weiter vereinfachen (Zeit und Geld sparen) und ihre Workflows erweitern, um benutzerdefinierte Entitäten aus einem breiteren Satz von Dokumenten zu extrahieren. Weitere Details finden Sie in der Dokumentation.

Weitere Informationen und erste Schritte mit Amazon Comprehend finden Sie auf unserer Produktseite.

Extrahieren von benutzerdefinierten Entitäten aus Images und Textract-JSON-Dateien mit Amazon Comprehend

Ende des Supports für Internet Explorer