Extrahieren benutzerdefinierter Entitäten aus Dokumenten in ihrem nativen Format mit Amazon Comprehend

Veröffentlicht am: Sep 15, 2021

Amazon Comprehend, ein Service zur Verarbeitung natürlicher Sprache (NLP), der Machine Learning nutzt, um Informationen in Texten zu erfassen, ermöglicht Ihnen jetzt das Extrahieren benutzerdefinierter Entitäten aus Dokumenten in einer Vielzahl von Formaten (PDF, Word, einfacher Text) und Layouts (z. B. Aufzählungen, Listen). So können Sie noch einfacher Erkenntnisse gewinnen und Ihre Workflows bei der Dokumentenverarbeitung weiter automatisieren.

Vor dieser Ankündigung konnten Sie Amazon Comprehend nur für reine Textdokumente verwenden, was bedeutete, dass Sie Dokumente in maschinenlesbaren Text umwandeln mussten, was oft die Qualität des Kontexts innerhalb des Dokuments beeinträchtigte. Diese neue Funktion kombiniert die Leistung der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) und optischen Zeichenerkennung (Optical Character Recognition, OCR), um benutzerdefinierte Entitäten aus Ihren PDF-, Word- und reinen Textdokumenten zu extrahieren, wobei dieselbe API verwendet wird und keine Vorverarbeitung erforderlich ist.

Die neue Funktion zur Erkennung benutzerdefinierter Entitäten nutzt den strukturellen Kontext von Text (Textplatzierung innerhalb einer Seite) in Kombination mit natürlichem Sprachkontext, um benutzerdefinierte Entitäten aus dichtem Text, nummerierten Listen und Aufzählungen zu extrahieren. Diese Kombination ermöglicht es Kunden auch, nicht zusammenhängende oder nicht verbundene Entitäten zu extrahieren, die nicht unmittelbar Teil desselben Textabschnitts sind (z. B. in einer Tabelle verschachtelte Entitäten). Mit dieser neuen Funktion müssen Kunden keine eigene Logik mehr entwickeln, um PDF- und Word-Dateien vor dem Einsatz von Comprehend in vereinfachten, reinen Text zu konvertieren. Durch die native Unterstützung neuer Dokumentenformate bietet Comprehend Kunden in Branchen wie Hypotheken-, Finanz- und Versicherungsunternehmen, die unterschiedliche Dokumentenformate und -layouts verarbeiten, entscheidende Vorteile. So können beispielsweise Hypothekenbanken jetzt Anträge schneller bearbeiten, indem sie die Bankdaten, die Adresse und den Namen des Mitunterzeichners eines Antragstellers aus Dokumenten wie gescannten PDFs von Kontoauszügen, Gehaltsabrechnungen und Arbeitsbescheinigungen extrahieren.

Zum Trainieren eines benutzerdefinierten Modells zur Erkennung von Entitäten, das für PDF-, Word- und reinen Textdokumente verwendet werden kann, müssen Kunden zunächst PDF-Dokumente mit einer benutzerdefinierten Anmerkungsvorlage von Amazon SageMaker Ground Truth kommentieren, die von Amazon Comprehend bereitgestellt wird. Das Modell zur Erkennung von benutzerdefinierten Entitäten nutzt sowohl die natürliche Sprache als auch die Positionsinformationen (z. B. Koordinaten) des Texts, um benutzerdefinierte Entitäten zu extrahieren, die zuvor bei der Vereinfachung eines Dokuments beeinträchtigt werden konnten. Eine schrittweise Anleitung zur Annotation Ihrer Dokumente finden Sie im Blog-Beitrag Custom document annotation for extracting named entities in documents using Amazon Comprehend. Sobald Sie die Annotation abgeschlossen haben, können Sie ein Modell zur Erkennung von benutzerdefinierten Entitäten trainieren und es verwenden, um benutzerdefinierte Entitäten aus PDF und Word für die Batch-Verarbeitung (asynchron) zu extrahieren. Zum Extrahieren von Text und räumliche Positionen von Text aus gescannten PDF-Dokumenten ruft Amazon Comprehend in Ihrem Namen Amazon Textract als Schritt vor der Erkennung benutzerdefinierter Entitäten auf. Details zum Training und zur Verwendung Ihres Modells finden Sie unter Extrahieren benutzerdefinierter Entitäten aus Dokumenten in ihrem nativen Format mit Amazon Comprehend.

Die Unterstützung der Erkennung benutzerdefinierter Entitäten für Nur-Text-, PDF- und Word-Dokumente ist direkt über die AWS-Konsole und AWS CLI verfügbar. Eine Liste der unterstützten AWS-Regionen für Comprehend sowie Textract finden Sie in der AWS Tabelle der Regionen für die gesamte globale Infrastruktur von AWS.

Um mehr zu erfahren und loszulegen, besuchen Sie die Produktseite von Amazon Comprehend, die Seite zur intelligenten Dokumentenverarbeitung oder unsere Dokumentation.

Extrahieren benutzerdefinierter Entitäten aus Dokumenten in ihrem nativen Format mit Amazon Comprehend

Ende des Supports für Internet Explorer