Überspringen zum Hauptinhalt

Was ist OCR (Optical Character Recognition, optische Zeichenerkennung)?

Was ist OCR (Optical Character Recognition, optische Zeichenerkennung)?

Die optische Zeichenerkennung (OCR) ist ein Vorgang, bei dem ein Bild von einem Text in ein maschinenlesbares Textformat umgewandelt wird. Wenn Sie z. B. ein Formular oder eine Quittung scannen, speichert Ihr Computer den Scan als Bilddatei. Sie können die Wörter in der Bilddatei nicht mit einem Texteditor bearbeiten, suchen oder zählen. Mit einem OCR können Sie jedoch das Bild in ein Textdokument, dessen Inhalt als Textdaten gespeichert wird, konvertieren.

Warum ist OCR wichtig?

Bei den meisten Business-Workflows gehen die Informationen von Druckmedien ein. Formulare in Papierform, Rechnungen, gescannte Rechtsdokumente und gedruckte Verträge sind alle Teil des Geschäftsprozesses. Diese großen Menge an Papieren nehmen viel Zeit und Platz zum Aufbewahren und Verwalten in Anspruch. Obwohl die Verwaltung von papierlosen Dokumenten die bewährte Methode ist, schafft das Scannen von Dokumenten in ein Bild Herausforderungen. Der Prozess erfordert ein manuelles Eingreifen und kann mühsam und langsam sein.

Außerdem werden durch die Digitalisierung dieses Dokuments Bilddateien erstellt, worin der Text dann verborgen ist. Der Text in den Bildern kann von der Textverarbeitungs-Software nicht auf die selbe Weise verarbeitet werden wie Textdokumente. Die OCR-Technologie löst das Problem, indem Textbilder in Textdaten umgewandelt werden, die von anderen Geschäfts-Softwareprogrammen analysiert werden können. Anschließend können die Daten zur Durchführung der Analytik, zum Optimieren von Betriebstätigkeiten, zum Automatisieren von Prozessen und zur Verbesserung der Produktivität verwendet werden.

Welche Vorteile bietet OCR?

Im Folgenden werden große Vorteile der OCR-Technologie aufgeführt:

Durchsuchbarer Text

Unternehmen können ihre vorhandenen und neuen Dokumente in ein komplett durchsuchbares Wissensarchiv umwandeln. Sie können auch die Text-Datenbank automatisch verarbeiten, indem Sie die Datenanalytik-Software zur weiteren Wissens-Verarbeitung verwenden.

Operative Effizienz

Sie können die Effizienz mit der OCR-Software verbessern, um Dokument-Workflows und digitale Workflows in Ihrem Unternehmen automatisch zu integrieren. Hier sind einige Beispiele dafür, was die OCR-Software kann:

  • Von Hand ausgefüllte Formulare zur automatischen Verifizierung, Überprüfung, Bearbeitung und Analyse scannen. Dadurch wird die zur manuellen Verarbeitung und Dateneingabe erforderliche Zeit eingespart.
  • Die erforderlichen Dokumente finden, indem schnell nach einem Begriff in der Datenbank gesucht wird, damit Sie nicht manuell durch Akten in einem Aktenschrank sortieren müssen.
  • Handgeschriebene Notizen in bearbeitbare Texte und Dokumente umwandeln.
     

Lösungen mit künstlicher Intelligenz

OCR ist oft Teil anderer Lösungen der künstlichen Intelligenz, die Unternehmen ggf. implementieren. Beispielweise scannt und liest OCR Autokennzeichen und Straßenschilder in selbstfahrenden Autos, erkennt Markenlogos in Social-Media-Posts oder identifiziert Produktverpackungen in Werbeaufnahmen. Solche Technologie der künstlichen Intelligenz hilft den Unternehmen dabei, bessere Marketing- und Betriebsentscheidungen zu treffen, die Ausgaben senken und das Kundenerlebnis verbessern.

Wie sieht die Geschichte und Entwicklung von OCR aus?

Eine der ersten bekannten Entwicklungen im Bereich OCR war die Maschine von Emanuel Goldberg in den 1920er Jahren, die Zeichen lesen und in Telegrafencode umwandeln konnte. Dies legte den Grundstein für die Idee des maschinellen Lesens.

Frühe Anwendung

In den 1950er Jahren begann OCR sich als kommerzielle Technologie zu etablieren. Unternehmen wie RCA entwickelten Systeme, die bestimmte Schriftarten für Bank- und Postanwendungen lesen konnten. Diese Systeme wurden zur Automatisierung der Scheckverarbeitung und Postsortierung eingesetzt – ein eng gefasster, aber wirkungsvoller Anwendungsbereich.

In den 1960er Jahren wurden die Schriftarten OCR-A und OCR-B entwickelt, die sowohl für Menschen als auch für Maschinen leicht lesbar waren. Durch ihre Einführung konnte OCR im Finanzwesen und in der Verwaltung einheitlicher eingesetzt werden.

Erweiterung

Verbesserungen bei Scannern und Softwarealgorithmen trugen dazu bei, dass OCR für den täglichen Geschäftsgebrauch praktikabel wurde. Frühe Programme konnten gedruckte Papierdokumente scannen und in bearbeitbaren Text umwandeln, allerdings war die Genauigkeit begrenzt.

In den 2000er Jahren ermöglichten neuronale Netze und frühe Technologien des Machine Learning, dass OCR über feste Schriftarten und Layouts hinausging. Moderne Systeme konnten nun handgeschriebenen Text, Scans von schlechter Qualität und komplexe Layouts mit weitaus größerer Genauigkeit interpretieren.

Vorhanden

Heute hat sich OCR von einem Nischen-Tool zu einer grundlegenden Technologie der digitalen Transformation entwickelt. Es ist in allen Bereichen integriert, von mobilen Apps bis hin zu Automatisierungsplattformen für Unternehmen. Es bietet Support für mehrere Sprachen und verarbeitet die Echtzeit-Image-Capture in kontextbezogener Weise. Es ist nun ein integraler Bestandteil der intelligenten Automatisierung.

Was sind die verschiedenen OCR-Anwendungsfälle in der Dokumentenverarbeitung?

OCR ist ein wesentlicher Bestandteil der Dokumentenverarbeitungsworkflows in Unternehmen. Betrachten Sie die folgenden Anwendungsfälle.

Intelligente Suche in Dokumentenarchiven

Die OCR-Technologie ermöglicht die Erstellung durchsuchbarer digitaler Archive, indem Text aus bildbasierten und PDF-Dokumenten extrahiert wird. Sobald der Text erkannt wurde, kann er indexiert und in KI-gestützten Suchsystemen verwendet werden. Benutzer können schnell und präzise in großem Volume nach relevanten Dateien suchen, ohne dass eine zusätzliche Dokumentenklassifizierung erforderlich ist. Bei der Suche nach einem bestimmten Kundennamen würden beispielsweise alle Zahlungsaufträge, Rechnungen und Formulare angezeigt, die ursprünglich in Papierform eingereicht wurden.

Unternehmen können ihre vorhandenen und neuen gedruckten Dokumente in ein komplett durchsuchbares Wissensarchiv umwandeln. Sie können auch die Text-Datenbank automatisch verarbeiten, indem Sie die Datenanalytik-Software zur weiteren Wissens-Verarbeitung verwenden.

Natürliche Sprachverarbeitung

OCR erkennt und extrahiert Text auf Wort-, Zeilen- oder Tabellenzellenebene und bietet so eine bessere Kontrolle darüber, wie Inhalte für nachgelagerte Aufgaben der natürlichen Sprachverarbeitung (NLP) wie Dokumentenklassifizierung, Zusammenfassung, Stimmungsanalyse, Themenmodellierung, Entität-Erkennung und mehr aufbereitet werden. Für die Zusammenfassung ist beispielsweise die Textextraktion in Absätzen erforderlich, während für die Entität-Erkennung möglicherweise die Textextraktion in Schlüssel-Wert-Paaren, wie in einer JSON-Datei, vorzuziehen ist.

Datenstandardisierung

Dokumenten-Workflows umfassen häufig unstrukturierte Daten aus unterschiedlichen Formaten und Branchen. OCR unterstützt die Normalisierung dieser Daten, indem es sowohl Text als auch Tabellen aus verschiedenen Dokumenttypen wie Finanzberichten, klinischen Notizen und technischen Berichten extrahiert. Sie profitieren von einer schnelleren Verarbeitung und einer konsistenteren Datenhandhabung über verschiedene Systeme hinweg.

Automatisierung der Formularverarbeitung

Die OCR-Technologie spielt eine wichtige Rolle bei der Automatisierung der Formularverarbeitung. Sie kann Felder identifizieren und strukturierte Informationen aus verschiedenen Formulartypen extrahieren, sodass Unternehmen diese Daten ohne manuelle Eingabe direkt in Datenbanken integrieren können.

Anwendungsfeature

OCR-Funktionen können direkt in Geschäftsanwendungen integriert werden, sodass Benutzer die Textextraktion selbst in Echtzeit durchführen können. Dies reduziert den Analytik-Workload, da die Daten direkt an der Quelle korrekt erfasst werden.

Wie wird OCR in verschiedenen Branchen eingesetzt?

Im Folgenden sind einige häufig vorkommende OCR-Anwendungsfälle in verschiedenen Branchen aufgeführt:

Banking

Das Bankwesen verwendet OCR zur Verarbeitung und Verifizierung von Papieren für Darlehensbelege, zur Einzahlung von Schecks und andere Finanztransaktionen. Diese Verifizierung hat die Betrugsprävention und Transaktionssicherheit verbessert. Beispielsweise ist BlueVine ein Finanztechnologie-Unternehmen, das Finanzierungen für kleine und mittelständische Unternehmen bietet. Das Unternehmen verwendet Amazon Textract, einen cloudbasierten OCR-Service, um ein Produkt für kleine Unternehmen in den USA zu entwickeln, das schnellen Zugriff auf Darlehen aus dem Payment Protection Program (PPP) im Rahmen des COVID-19-Konjunkturprogramms ermöglicht. Amazon Textract verarbeitet und analysiert Zehntausende von PPP-Formularen täglich, sodass BlueVine mehreren tausend Unternehmen dabei helfen könnte Geldmittel zu erhalten und dadurch mehr als 400 000 Stellen beizubehalten.

Gesundheitswesen

Das Gesundheitswesen verwendet OCR, um Patientenakten zu verarbeiten, einschließlich Behandlungen, Tests, Krankenhausakten und Versicherungszahlungen. OCR hilft beim Optimieren von Workflows und beim Reduzieren manueller Arbeit in den Krankenhäusern. Gleichzeitig hilft OCR dabei, die Akten auf dem neuesten Stand zu halten. Beispielsweise bietet die nib Group mehr als einer Million Australiern eine Kranken- und Pflegeversicherung und erhält täglich Tausende von medizinischen Anträgen. Die Kunden können Bilder Ihrer Arztrechnung aufnehmen und sie dann über die mobile nib-App absenden. Amazon Textract verarbeitet diese Bilder automatisch, so dass das Unternehmen Ansprüche viel schneller verarbeiten kann.

Logistik

Logistikunternehmen verwenden die OCR zur effizienteren Nachverfolgung von Paketaufklebern, Rechnungen, Belegen und anderen Dokumenten. Beispielsweise verwendet die Foresight Group Amazon Textract zur Automatisierung der Rechnungsverarbeitung in SAP. Die manuelle Eingabe dieser Geschäftsdokumente war zeitraubend und fehleranfällig, weil Foresight-Mitarbeiter die Daten in mehrere Abrechnungssysteme eingeben mussten. Mit Amazon Textract kann Foresight-Software Zeichen in vielen verschiedenen Layouts genauer lesen. Dadurch wird die Unternehmenseffizienz erhöht.

Wie funktioniert OCR?

Die OCR-Maschine oder OCR-Software funktioniert durch Ausführung der folgenden Schritte:

Erstellung des Bildes

Ein Scanner liest Dokumente und wandelt sie in binäre Daten um. Die OCR-Software analysiert das gescannte Bild und klassifiziert die hellen Bereiche als Hintergrund und die dunklen Bereiche als Text.

Vorverarbeitung

Die OCR-Software reinigt zuerst das Bild und entfernt Fehler, um es auf den Lesevorgang vorzubereiten. Im Folgenden einige dieser Reinigungstechniken:

  • Das leichte Entzerren oder Kippen des gescannten Dokuments, um Ausrichtungsprobleme während des Scans zu beheben.
  • Entflecken oder Entfernen von digitalen Image-Flecken oder Glättung der Kanten von Text-Images.
  • Reinigung von Kästchen und Linien im Bild.
  • Skript-Erkennung für Mehrsprachen-OCR-Technologie

Texterkennung

Die zwei Hauptarten der OCR-Algorithmen oder Software-Prozesse, die eine OCR-Software zur Texterkennung verwendet, werden als Musterabgleich und Merkmalextraktion bezeichnet.

Musterabgleich

Der Musterabgleich funktioniert durch Isolation einer Zeichendarstellung (als Glyphe bezeichnet) und durch Vergleich mit einer ähnlichen gespeicherten Glyphe. Der Musterabgleich funktioniert nur, wenn die gespeicherte Glyphe über eine Schriftart und Skala verfügt, die der eingegebenen Glyphe ähneln. Diese Methode funktioniert gut bei gescannten Bildern von Dokumenten, die einer bekannten Schriftart eingegeben wurden.

Merkmalextraktion

Die Merkmalextraktion zerlegt die Glyphen (oder segmentiert sie), und zwar in Merkmale wie Linien, geschlossene Schleifen, Linienrichtung und Linienschnittpunkte. Anschließend werden diese Merkmale verwendet, um die beste Übereinstimmung oder den am nächsten gelegenen Nachbarn unter den verschiedenen gespeicherten Glyphen zu finden.

Nachverarbeitung

Nach der Analyse konvertiert das System die extrahierten Textdaten in maschinenlesbare Textdokumente. Einige OCR-Systeme können mit Kommentaren versehene PDF-Dateien erstellen, die die Versionen des gescannten Dokuments vor und nach dem Vorgang enthalten.

Welche Arten von OCR gibt es?

Datenwissenschaftler klassifizieren verschiedene Arten von OCR-Technologien auf Grundlage ihrer Verwendung und Anwendung. Hier ein paar Beispiele:

Einfache optische Zeichenerkennung-Software

Eine einfache OCR-Maschine funktioniert durch Speicherung verschiedener Schriftarten- und Textbilder-Muster als Vorlagen. Die OCR-Software verwendet Musterabgleich-Algorithmen zum Vergleich von Textbildern mit der internen Datenbank, und zwar ein Zeichen nach dem anderen. Wenn das System den Text Wort für Wort abgleicht, wird das als optische Worterkennung bezeichnet. Diese Lösung hat ihre Grenzen, weil es nahezu unbegrenzte Schriftarten und Handschriften gibt, und es ist unmöglich, jeden Einzelnen davon zu erfassen und in der Datenbank zu speichern.

Intelligente optische Zeichenerkennung-Software

Moderne OCR-Systeme verwenden die intelligente Zeichenerkennung (ICR), um den Text genauso wie der Mensch lesen zu können. Sie verwenden fortschrittliche Methoden, die Machine Learning nutzen, um Maschinen so zu trainieren, dass sie sich wie Menschen verhalten. Ein Machine-Learning-System, das als neuronales Netzwerk bezeichnet wird, analysiert den Text auf mehreren Ebenen und verarbeitet das Bild mehrmals. Das System sucht nach verschiedenen Bildattributen wie Kurven, Linien, Schnittpunkten und Schleifen, und kombiniert die Ergebnisse all dieser verschiedenen Analyse-Ebenen, um das Endergebnis zu erzielen. Obwohl die ICR normalerweise das Bild ein Zeichen nach dem anderen verarbeitet, ist der Prozess schnell und das Ergebnis wird binnen Sekunden erzielt.

Intelligente Worterkennung

Die Systeme der intelligenten Worterkennung arbeiten auf den gleichen Grundsätzen wie ICR. Sie verarbeiten jedoch ganze Wortbilder, statt die Bilder in Zeichen vorzuverarbeiten.

Optische Markierungserkennung

Die optische Markierungserkennung identifiziert Logos, Wasserzeichen, und sonstige Textsymbole in einem Dokument.

Wie kann AWS mit OCR helfen?

AWS bietet zwei Services an, die dabei helfen können OCR in Ihrem Unternehmen einzuführen:

Amazon Textract ist ein Machine Learning (ML)-Service, der OCR verwendet, um automatisch Text, Handschrift und Daten aus gescannten Dokumenten wie PDFs zu extrahieren. Der Service kann Tausende von verschiedenen Dokumenten in mehreren Layouts und Formaten mit hoher Geschwindigkeit lesen. Wenn der Service Informationen aus Dokumenten extrahiert, sendet Amazon Textract eine Vertrauenspunktzahl für alle Informationen zurück, damit Sie fundierte Entscheidungen darüber treffen können, was sie mit diesen Ergebnissen machen wollen.

Amazon Rekognition analysiert Millionen von Bildern und Videos innerhalb von Minuten und ergänzt menschliche visuelle Überprüfungsaufgaben mit künstlicher Intelligenz (KI). Amazon-Rekognition-APIs können zum Extrahieren von Text sowohl aus Bildern als auch aus Videos verwendet werden. Sie können schiefen und verzerrten Text aus Bildern und Videos von Straßenschildern, Posts in sozialen Medien und Produktverpackungen extrahieren.

Beginnen Sie noch heute mit den ersten Schritten mit OCR auf AWS, indem Sie ein AWS-Konto erstellen.