Was ist OCR (Optical Character Recognition, optische Zeichenerkennung)?

Die optische Zeichenerkennung (OCR) ist ein Vorgang, bei dem ein Bild von einem Text in ein maschinenlesbares Textformat umgewandelt wird. Wenn Sie z. B. ein Formular oder eine Quittung scannen, speichert Ihr Computer den Scan als Bilddatei. Sie können die Wörter in der Bilddatei nicht mit einem Texteditor bearbeiten, suchen oder zählen. Mit einem OCR können Sie jedoch das Bild in ein Textdokument, dessen Inhalt als Textdaten gespeichert wird, konvertieren.

Warum ist OCR wichtig?

Bei den meisten Business-Workflows gehen die Informationen von Druckmedien ein. Formulare in Papierform, Rechnungen, gescannte Rechtsdokumente und gedruckte Verträge sind alle Teil des Geschäftsprozesses. Diese großen Menge an Papieren nehmen viel Zeit und Platz zum Aufbewahren und Verwalten in Anspruch. Obwohl die Verwaltung von papierlosen Dokumenten die bewährte Methode ist, schafft das Scannen von Dokumenten in ein Bild Herausforderungen. Der Prozess erfordert ein manuelles Eingreifen und kann mühsam und langsam sein.

Außerdem werden durch die Digitalisierung dieses Dokuments Bilddateien erstellt, worin der Text dann verborgen ist. Der Text in den Bildern kann von der Textverarbeitungs-Software nicht auf die selbe Weise verarbeitet werden wie Textdokumente. Die OCR-Technologie löst das Problem, indem Textbilder in Textdaten umgewandelt werden, die von anderen Geschäfts-Softwareprogrammen analysiert werden können. Anschließend können die Daten zur Durchführung der Analytik, zum Optimieren von Betriebstätigkeiten, zum Automatisieren von Prozessen und zur Verbesserung der Produktivität verwendet werden.

Wie funktioniert OCR?

Die OCR-Maschine oder OCR-Software funktioniert durch Ausführung der folgenden Schritte:

Erstellung des Bildes

Ein Scanner liest Dokumente und wandelt sie in binäre Daten um. Die OCR-Software analysiert das gescannte Bild und klassifiziert die hellen Bereiche als Hintergrund und die dunklen Bereiche als Text.

Vorverarbeitung

Die OCR-Software reinigt zuerst das Bild und entfernt Fehler, um es auf den Lesevorgang vorzubereiten. Im Folgenden einige dieser Reinigungstechniken:

  • Das leichte Entzerren oder Kippen des gescannten Dokuments, um Ausrichtungsprobleme während des Scans zu beheben.
  • Entflecken oder Entfernen von digitalen Image-Flecken oder Glättung der Kanten von Text-Images.
  • Reinigung von Kästchen und Linien im Bild.
  • Skript-Erkennung für Mehrsprachen-OCR-Technologie

Texterkennung

Die zwei Hauptarten der OCR-Algorithmen oder Software-Prozesse, die eine OCR-Software zur Texterkennung verwendet, werden als Musterabgleich und Merkmalextraktion bezeichnet.

Musterabgleich

Der Musterabgleich funktioniert durch Isolation einer Zeichendarstellung (als Glyphe bezeichnet) und durch Vergleich mit einer ähnlichen gespeicherten Glyphe. Der Musterabgleich funktioniert nur, wenn die gespeicherte Glyphe über eine Schriftart und Skala verfügt, die der eingegebenen Glyphe ähneln. Diese Methode funktioniert gut bei gescannten Bildern von Dokumenten, die einer bekannten Schriftart eingegeben wurden.

Merkmalextraktion

Die Merkmalextraktion zerlegt die Glyphen (oder segmentiert sie), und zwar in Merkmale wie Linien, geschlossene Schleifen, Linienrichtung und Linienschnittpunkte. Anschließend werden diese Merkmale verwendet, um die beste Übereinstimmung oder den am nächsten gelegenen Nachbarn unter den verschiedenen gespeicherten Glyphen zu finden.

Nachverarbeitung

Nach der Analyse wandelt das System anschließend die extrahierten Textdaten in eine computerisierte Datei um. Einige OCR-Systeme können mit Kommentaren versehene PDF-Dateien erstellen, die die Versionen des gescannten Dokuments vor und nach dem Vorgang enthalten.

Welche Arten von OCR gibt es?

Datenwissenschaftler klassifizieren verschiedene Arten von OCR-Technologien auf Grundlage ihrer Verwendung und Anwendung. Hier ein paar Beispiele:

Einfache optische Zeichenerkennung-Software

Eine einfache OCR-Maschine funktioniert durch Speicherung verschiedener Schriftarten- und Textbilder-Muster als Vorlagen. Die OCR-Software verwendet Musterabgleich-Algorithmen zum Vergleich von Textbildern mit der internen Datenbank, und zwar ein Zeichen nach dem anderen. Wenn das System den Text Wort für Wort abgleicht, wird das als optische Worterkennung bezeichnet. Diese Lösung hat ihre Grenzen, weil es nahezu unbegrenzte Schriftarten und Handschriften gibt, und es ist unmöglich, jeden Einzelnen davon zu erfassen und in der Datenbank zu speichern.

Intelligente optische Zeichenerkennung-Software

Moderne OCR-Systeme verwenden die intelligente Zeichenerkennung (ICR), um den Text genauso wie der Mensch lesen zu können. Sie verwenden fortschrittliche Methoden, die Machine Learning nutzen, um Maschinen so zu trainieren, dass sie sich wie Menschen verhalten. Ein Machine-Learning-System, das als neuronales Netzwerk bezeichnet wird, analysiert den Text auf mehreren Ebenen und verarbeitet das Bild mehrmals. Das System sucht nach verschiedenen Bildattributen wie Kurven, Linien, Schnittpunkten und Schleifen, und kombiniert die Ergebnisse all dieser verschiedenen Analyse-Ebenen, um das Endergebnis zu erzielen. Obwohl die ICR normalerweise das Bild ein Zeichen nach dem anderen verarbeitet, ist der Prozess schnell und das Ergebnis wird binnen Sekunden erzielt.

Intelligente Worterkennung

Die Systeme der intelligenten Worterkennung arbeiten auf den gleichen Grundsätzen wie ICR. Sie verarbeiten jedoch ganze Wortbilder, statt die Bilder in Zeichen vorzuverarbeiten.

Optische Markierungserkennung

Die optische Markierungserkennung identifiziert Logos, Wasserzeichen, und sonstige Textsymbole in einem Dokument.

Welche Vorteile bietet OCR?

Im Folgenden werden große Vorteile der OCR-Technologie aufgeführt:

Durchsuchbarer Text

Unternehmen können ihre vorhandenen und neuen Dokumente in ein komplett durchsuchbares Wissensarchiv umwandeln. Sie können auch die Text-Datenbank automatisch verarbeiten, indem Sie die Datenanalytik-Software zur weiteren Wissens-Verarbeitung verwenden.

Operative Effizienz

Sie können die Effizienz mit der OCR-Software verbessern, um Dokument-Workflows und digitale Workflows in Ihrem Unternehmen automatisch zu integrieren. Hier sind einige Beispiele dafür, was die OCR-Software kann:

  • Von Hand ausgefüllte Formulare zur automatischen Verifizierung, Überprüfung, Bearbeitung und Analyse scannen. Dadurch wird die zur manuellen Verarbeitung und Dateneingabe erforderliche Zeit eingespart.
  • Die erforderlichen Dokumente finden, indem schnell nach einem Begriff in der Datenbank gesucht wird, damit Sie nicht manuell durch Akten in einem Aktenschrank sortieren müssen.
  • Handgeschriebene Notizen in bearbeitbare Texte und Dokumente umwandeln.

Lösungen mit künstlicher Intelligenz

OCR ist oft Teil anderer Lösungen der künstlichen Intelligenz, die Unternehmen ggf. implementieren. Beispielweise scannt und liest OCR Autokennzeichen und Straßenschilder in selbstfahrenden Autos, erkennt Markenlogos in Social-Media-Posts oder identifiziert Produktverpackungen in Werbeaufnahmen. Solche Technologie der künstlichen Intelligenz hilft den Unternehmen dabei, bessere Marketing- und Betriebsentscheidungen zu treffen, die Ausgaben senken und das Kundenerlebnis verbessern.

Wofür wird OCR verwendet?

Im Folgenden einige häufig vorkommende OCR-Anwendungsfälle in verschiedenen Branchen:

Banking

Das Bankwesen verwendet OCR zur Verarbeitung und Verifizierung von Papieren für Darlehensbelege, zur Einzahlung von Schecks und andere Finanztransaktionen. Diese Verifizierung hat die Betrugsprävention und Transaktionssicherheit verbessert. Beispielsweise ist BlueVine ein Finanztechnologie-Unternehmen, das Finanzierungen für kleine und mittelständische Unternehmen bietet. Das Unternehmen verwendet Amazon Textract, einen cloudbasierten OCR-Service, um ein Produkt für kleine Unternehmen in den USA zu entwickeln, das schnellen Zugriff auf Darlehen aus dem Payment Protection Program (PPP) im Rahmen des COVID-19-Konjunkturprogramms ermöglicht. Amazon Textract verarbeitet und analysiert Zehntausende von PPP-Formularen täglich, sodass BlueVine mehreren tausend Unternehmen dabei helfen könnte Geldmittel zu erhalten und dadurch mehr als 400 000 Stellen beizubehalten.

Gesundheitswesen

Das Gesundheitswesen verwendet OCR, um Patientenakten zu verarbeiten, einschließlich Behandlungen, Tests, Krankenhausakten und Versicherungszahlungen. OCR hilft beim Optimieren von Workflows und beim Reduzieren manueller Arbeit in den Krankenhäusern. Gleichzeitig hilft OCR dabei, die Akten auf dem neuesten Stand zu halten. Beispielsweise bietet die nib Group mehr als einer Million Australiern eine Kranken- und Pflegeversicherung und erhält täglich Tausende von medizinischen Anträgen. Die Kunden können Bilder Ihrer Arztrechnung aufnehmen und sie dann über die mobile nib-App absenden. Amazon Textract verarbeitet diese Bilder automatisch, so dass das Unternehmen Ansprüche viel schneller verarbeiten kann.

Logistik

Logistikunternehmen verwenden die OCR zur effizienteren Nachverfolgung von Paketaufklebern, Rechnungen, Belegen und anderen Dokumenten. Beispielsweise verwendet die Foresight Group Amazon Textract zur Automatisierung der Rechnungsverarbeitung in SAP. Die manuelle Eingabe dieser Geschäftsdokumente war zeitraubend und fehleranfällig, weil Foresight-Mitarbeiter die Daten in mehrere Abrechnungssysteme eingeben mussten. Mit Amazon Textract kann Foresight-Software Zeichen in vielen verschiedenen Layouts genauer lesen. Dadurch wird das Unternehmen effizienter.

Wie kann AWS mit OCR helfen?

AWS bietet zwei Services an, die dabei helfen können OCR in Ihrem Unternehmen einzuführen:

Amazon Textract ist ein Machine-Learning (ML)-Service, der OCR verwendet, um automatisch Text, Handschrift und Daten aus gescannten Dokumenten wie PDFs zu extrahieren. Der Service kann Tausende von verschiedenen Dokumenten in mehreren Layouts und Formaten mit hoher Geschwindigkeit lesen. Wenn der Service Informationen aus Dokumenten extrahiert, sendet Amazon Textract eine Vertrauenspunktzahl für alle Informationen zurück, damit Sie fundierte Entscheidungen darüber treffen können, was sie mit diesen Ergebnissen machen wollen.

Amazon Rekognition analysiert Millionen von Bildern und Videos innerhalb von Minuten und ergänzt menschliche visuelle Überprüfungsaufgaben mit künstlicher Intelligenz (KI). Amazon-Rekognition-APIs können zum Extrahieren von Text sowohl aus Bildern als auch aus Videos verwendet werden. Sie können schiefen und verzerrten Text aus Bildern und Videos von Straßenschildern, Posts in sozialen Medien und Produktverpackungen extrahieren.

Beginnen heute noch mit den ersten Schritten mit OCR auf AWS, indem Sie ein AWS-Konto erstellen.

Die nächsten Schritte mit AWS Machine Learning

Schauen Sie sich zusätzliche produktbezogene Ressourcen an
Weitere Informationen zu Machine-Learning-Services anzeigen 
Kostenlose Machine-Learning-Services anzeigen

Erhalten Sie sofortigen Zugriff auf kostenlose Machine-Learning-Services mit dem kostenlosen Kontingent von AWS.

Kostenloser Einstieg 
Beginnen Sie mit der Entwicklung in der Konsole

Beginnen Sie mit der Entwicklung mit SageMaker in der AWS-Managementkonsole.

Registrieren