Veröffentlicht am: Mar 30, 2022
Amazon Textract ist ein Service für Machine Learning, mit dem Sie Text und Daten aus praktisch jedem Dokument auf einfache Weise extrahieren können. Wir verbessern konsequent die stützenden Machine-Learning-Modelle basierend auf dem Feedback der Kunden, um eine noch bessere Genauigkeit zu gewährleisten. Wir freuen uns, Ihnen heute einige Qualitätsverbesserungen für unsere Funktionen zur Erkennung von Tabellen und Kontrollkästchen vorstellen zu können.
Die neuesten Tabellenmodelle unterstützen die Erkennung von zusammengeführten Zellen und die Identifizierung von Spaltenüberschriften. Konkret können Sie jetzt zusammengeführte Zellen in einem Dokument erkennen, das mit der Funktion AnalyzeDocument-Tables verarbeitet wurde, und zwar über die Kennung "Type": "MERGED_CELL", und auch Zellen, die den Spaltentitel bilden, und zwar durch die Kennung "EntityTypes": ["COLUMN_HEADER"]. Darüber hinaus freuen wir uns, Qualitätsverbesserungen für unsere Tabellenfunktion bekannt zu geben. Ab heute erkennt Textract äußere Tabellenbegrenzungen, Zeilen- und Spaltenbegrenzungen und Tabelleninhalte noch genauer. Kunden können jetzt eine höhere Genauigkeit bei geringerer Nachbearbeitung beim Extrahieren von Tabellen in einer Vielzahl von Dokumenttypen erwarten, darunter solche aus den Bereichen Kreditwesen, Versicherungen, Finanzdienstleistungen, Recht, Gesundheitswesen, Energie und dem öffentlichen Sektor.
Außerdem haben wir die Erkennung von Kontrollkästchen im Formularmodell verbessert. Mit dieser Verbesserung können Sie jetzt Amazon Textract nutzen, um handschriftlich markierte/nicht markierte Informationen in Kontrollkästchen in Formularfeldern genauer zu erkennen.
Um loszulegen, melden Sie sich bei der Amazon-Textract-Konsole an, um die neueste Funktion zur Erkennung von Tabellen und Kontrollkästchen auszuprobieren. Um mehr über die Möglichkeiten von Textract zu erfahren, besuchen Sie bitte die Amazon-Textract-Website, den Entwicklerleitfaden oder die Ressourcen-Seite.