Veröffentlicht am: Jan 26, 2022

Amazon Textract ist ein Machine-Learning-Service, der Text, Handschrift und Daten automatisch aus eingescannten Dokumenten extrahiert. Dieser Vorgang geht über eine einfache optische Zeichenerkennung (OCR) zum Identifizieren, Verstehen und Extrahieren von Daten aus Formularen und Tabellen hinaus.

Bisher mussten Kunden PDF-Dokumente in PNG- oder JPEG-Formate konvertieren, bevor sie die synchronen APIs von Textract (DetectDocumentText, AnalyzeDocument und AnalyzeExpense und AnalyzeID) aufrufen konnten, um Text und Daten aus Dokumenten wie Antragsformularen, Rechnungen und Quittungen, Verträgen/Vereinbarungen, Ausweisdokumenten und Bewerbungsformularen zu extrahieren. Ab heute beseitigt Amazon Textract diesen Vorverarbeitungsschritt und unterstützt einseitige PDF-Dokumente in synchronen Vorgängen, sodass Kunden Text und Daten aus PDF-Dokumenten extrahieren können, ohne die Dokumente von PDF in PNG oder JPEG zu konvertieren.

Darüber hinaus unterstützt Amazon Textract jetzt auch die Verarbeitung von JPEG-2000-kodierten Bildern innerhalb von PDF-Dokumenten. Sie können jetzt Text und Daten aus JPEG-2000-kodierten Bildern in Ihren PDF-Dokumenten extrahieren.

Melden Sie sich zunächst bei der Amazon-Textract-Konsole an, um Ihre PDF-Dokumente zu testen. Um mehr über die Möglichkeiten von Textract zu erfahren, besuchen Sie bitte die Amazon Textract-Website, den Entwicklerleitfaden oder die Ressourcen-Seite.