Qu’est-ce que l’OCR ? – La reconnaissance optique de caractères expliquée

Qu’est-ce que la reconnaissance optique de caractères (OCR) ?

La reconnaissance optique de caractères (OCR) est le processus permettant de convertir une image de texte en format de texte lisible par une machine. Par exemple, si vous scannez un formulaire ou un ticket de caisse, votre ordinateur enregistre la numérisation en tant que fichier image. Vous ne pouvez pas utiliser un éditeur de texte pour modifier le fichier, y faire une recherche ou en compter les mots. Par contre, vous pouvez utiliser l'OCR pour convertir l'image en document texte, dont le contenu sera stocké en tant que données textuelles.

Pourquoi l'OCR est-elle importante ?

La plupart des flux de travail des entreprises impliquent la réception d’informations provenant de médias imprimés. Les formulaires papier, les factures, les documents juridiques numérisés et les contrats imprimés font tous partie des processus métier. Ces gros volumes de paperasse prennent beaucoup de temps et d'espace à stocker et à gérer. Bien que la gestion des documents sans papier soit la voie à suivre, la numérisation du document en image crée des difficultés. Ce processus nécessite une intervention manuelle et peut se révéler fastidieux et lent.

De plus, la numérisation de ce contenu documentaire crée des fichiers d’images dans lesquels le texte est caché. Le texte des images ne peut pas être traité par les logiciels de traitement de texte de la même manière que les documents texte. La technologie OCR résout le problème en convertissant les images de texte en données textuelles qui peuvent être analysées par d'autres logiciels métier. Vous pouvez ensuite utiliser ces données pour effectuer des analyses, rationaliser les opérations, automatiser les processus et améliorer la productivité.

Quels sont les avantages de l’OCR ?

Voici les principaux avantages de la technologie OCR :

Texte consultable

Les entreprises peuvent convertir leurs documents existants et nouveaux en une archive de connaissances entièrement consultable. Ils peuvent également traiter automatiquement la base de données textuelles en utilisant un logiciel d'analytique des données pour un traitement ultérieur des connaissances.

Efficacité opérationnelle

Vous pouvez améliorer votre efficacité en utilisant un logiciel OCR pour intégrer automatiquement les flux de documents et les flux numériques au cœur de votre activité. Voici quelques exemples des capacités d'un logiciel OCR :

Numériser les formulaires remplis à la main pour une vérification, un examen, une édition et une analyse automatisés. Cela permet d'économiser le temps nécessaire au traitement manuel des documents et à la saisie des données.
Trouver les documents requis en recherchant rapidement un terme dans la base de données, ce qui vous évite de devoir trier manuellement les dossiers dans une boîte.
Convertir des notes manuscrites en textes et documents modifiables.

Solutions d'intelligence artificielle

L'OCR fait souvent partie d'autres solutions d'intelligence artificielle que les entreprises peuvent mettre en œuvre. Par exemple, il scanne et lit les plaques d'immatriculation et les panneaux routiers dans les voitures à conduite autonome, détecte les logos de marque dans les messages sur les médias sociaux ou identifie les emballages de produits dans les images publicitaires. Cette technologie d'intelligence artificielle aide les entreprises à prendre de meilleures décisions de marketing et opérationnelles qui réduisent les dépenses et améliorent l'expérience client.

Quelles sont l’historique et l’évolution de l’OCR ?

L’un des premiers développements connus en matière d’OCR a été la machine d’Emanuel Goldberg dans les années 1920, qui pouvait lire des caractères et les convertir en code télégraphique. Cela a jeté les bases de l’idée de la lecture automatique.

Adoption anticipée

Dans les années 1950, l’OCR a commencé à prendre forme en tant que technologie commerciale. Des entreprises comme RCA ont développé des systèmes capables de lire des polices spécifiques pour les applications bancaires et postales. Ces systèmes ont été utilisés pour automatiser le traitement des chèques et le tri du courrier, des applications limitées mais très efficaces.

Au cours des années 1960, les polices OCR-A et OCR-B ont été conçues pour être facilement lues par les humains et les machines. Leur introduction a permis à l’OCR de devenir plus cohérente au sein des finances et de l’administration.

Expansion

Les améliorations apportées aux scanners et aux algorithmes logiciels ont contribué à rendre l’OCR pratique pour une utilisation professionnelle quotidienne. Les premiers programmes pouvaient numériser des documents papier imprimés et les convertir en texte modifiable, même si la précision était limitée.

Dans les années 2000, les réseaux neuronaux et les premières technologies de machine learning ont permis à l’OCR d’aller au-delà des polices et des mises en page fixes. Les systèmes modernes pouvaient désormais interpréter le texte manuscrit, les numérisations de mauvaise qualité et les mises en page complexes avec une précision bien supérieure.

Présent

Aujourd’hui, l’OCR est passée d’un outil de niche à une technologie fondamentale de la transformation numérique. Elle est intégrée partout, des applications mobiles aux plateformes d’automatisation d’entreprise. Elle prend en charge plusieurs langues et gère la capture d’images en temps réel en tenant compte du contexte. Elle fait désormais partie intégrante de l’automatisation intelligente.

Quels sont les différents cas d’utilisation de l’OCR dans le traitement de documents ?

L’OCR fait partie intégrante des flux de travail de traitement des documents d’entreprise. Prenez en compte les cas d’utilisation suivants.

Recherche intelligente d’archives de documents

La technologie OCR permet de créer des archives numériques consultables en extrayant du texte à partir de PDF et de documents basés sur des d’images. Une fois le texte reconnu, il peut être indexé et utilisé dans des systèmes de recherche optimisés par l’IA. Les utilisateurs peuvent rechercher des fichiers pertinents dans de grands volumes de fichiers rapidement et avec précision, sans classification supplémentaire des documents. Par exemple, la recherche d’un nom de client spécifique renverrait tous les ordres de paie, factures et formulaires initialement soumis sous forme de documents.

Les entreprises peuvent convertir leurs documents imprimés existants et nouveaux en une archive de connaissances entièrement consultable. Ils peuvent également traiter automatiquement la base de données textuelles en utilisant un logiciel d’analytique des données pour un traitement ultérieur des connaissances.

Traitement du langage naturel

L’OCR reconnaît et extrait le texte au niveau du mot, de la ligne ou de la cellule du tableau, ce qui permet de mieux contrôler la façon dont le contenu est préparé pour les tâches de traitement du langage naturel (NLP) en aval, telles que la classification des documents, la synthèse, l’analyse des sentiments, la modélisation des sujets, la reconnaissance d’entités, etc. Par exemple, la synthèse nécessitera l’extraction de texte dans les paragraphes, mais la reconnaissance des entités peut préférer l’extraction de texte par paires clé-valeur, comme un fichier JSON.

Normalisation des données

Les flux de documents impliquent souvent des données non structurées provenant de différents formats et secteurs d’activité. L’OCR permet de normaliser ces données en extrayant à la fois du texte et des tableaux à partir de divers types de documents tels que les états financiers, les notes cliniques et les rapports techniques. Vous bénéficiez d’un traitement plus rapide et d’une gestion des données plus cohérente sur tous les systèmes.

Automatiser le traitement des formulaires

La technologie OCR joue un rôle clé dans l’automatisation du traitement des formulaires. Elle est capable d’identifier des champs et d’extraire des informations structurées à partir de différents types de formulaires, ce qui permet aux entreprises d’intégrer ces données directement dans des bases de données sans saisie manuelle.

Fonctionnalité de l’application

Les fonctionnalités d’OCR peuvent être intégrées directement dans les applications métier afin que les utilisateurs puissent eux-mêmes extraire du texte en temps réel. Cela réduit la charge de travail analytique, car les données sont collectées correctement à la source.

Comment l’OCR est-elle utilisée dans les différents secteurs d’activité ?

Voici quelques cas d’utilisation courante de l’OCR dans divers secteurs :

Banque

Le secteur bancaire utilise l'OCR pour traiter et vérifier les documents de prêt, les chèques de dépôt et d'autres transactions financières. Cette vérification a permis d'améliorer la prévention des fraudes et de renforcer la sécurité des transactions. Par exemple, BlueVine est une société de technologie financière qui fournit des financements aux petites et moyennes entreprises. Elle a utilisé Amazon Textract, un service OCR basé sur le cloud, pour développer un produit permettant aux petites entreprises américaines d’accéder rapidement aux prêts du Paycheck Protection Program (PPP) dans le cadre du plan de relance COVID-19. Amazon Textract a traité et analysé automatiquement des dizaines de milliers de formulaires PPP par jour afin que BlueVine puisse aider plusieurs milliers d’entreprises à obtenir des fonds, épargnant ainsi plus de 400 000 tâches dans le processus.

Soins de santé

Le secteur des soins de santé utilise l'OCR pour traiter les dossiers des patients, notamment les traitements, les tests, les dossiers hospitaliers et les paiements d'assurance. L'OCR permet de rationaliser le flux de travail et de réduire le travail manuel dans les hôpitaux tout en maintenant les dossiers à jour. Par exemple, le groupe nib fournit une assurance santé et médicale à plus d'un million d'Australiens et reçoit des milliers de demandes de remboursement de frais médicaux par jour. Ses clients peuvent prendre des photos de leur facture médicale et les soumettre via l'application mobile nib. Amazon Textract traite ces images automatiquement afin que la société puisse approuver les demandes d'indemnisation beaucoup plus rapidement.

Logistique

Les entreprises de logistique utilisent l'OCR pour suivre plus efficacement les étiquettes de colis, les factures, les reçus et autres documents. Par exemple, le groupe Foresight utilise Amazon Textract pour automatiser le traitement des factures dans SAP. La saisie manuelle de ces documents commerciaux prenait beaucoup de temps et était source d'erreurs, car les employés de Foresight devaient saisir les données dans plusieurs systèmes comptables. Avec Amazon Textract, le logiciel Foresight peut lire les caractères avec plus de précision sur de nombreuses mises en page différentes, ce qui augmente l’efficacité de l’entreprise.

Comment fonctionne l’OCR ?

Le moteur OCR ou le logiciel OCR fonctionne en effectuant les étapes suivantes :

Acquisition d'image

Un scanner lit les documents et les convertit en données binaires. Le logiciel OCR analyse l'image numérisée et classe les zones claires comme fond et les zones sombres comme texte.

Prétraitement

Le logiciel OCR nettoie d'abord l'image et prélève les erreurs pour la préparer à la lecture. Voici quelques-unes de ses techniques de nettoyage :

Désalignement ou inclinaison légère du document numérisé pour résoudre les problèmes d’alignement pendant la numérisation.
Déchatoiement ou prélèvement de toutes les taches de l’image numérique ou lissage des bords des images de texte.
Nettoyage des cases et des lignes dans l’image.
Reconnaissance d'écriture pour la technologie OCR multilingue

Reconnaissance de texte

Les deux principaux types d’algorithmes ou de processus logiciels qu’un logiciel OCR utilise pour la reconnaissance de texte sont appelés la correspondance de motifs et l’extraction de caractéristiques.

Correspondance de motifs

La correspondance de motifs fonctionne en isolant une image de caractère, appelée glyphe, et en la comparant à un glyphe stocké de manière similaire. La reconnaissance des formes ne fonctionne que si le glyphe stocké a une police et une échelle similaires au glyphe d’entrée. Cette méthode fonctionne bien avec les images numérisées de documents qui ont été tapés dans une police connue.

Extraction de caractéristiques

L'extraction de caractéristiques décompose les glyphes en caractéristiques telles que les lignes, les boucles fermées, la direction des lignes et les intersections de lignes. Il utilise ensuite ces caractéristiques pour trouver la meilleure correspondance ou le plus proche voisin parmi ses différents glyphes stockés.

Post-traitement

Après analyse, le système convertit les données textuelles extraites en documents texte lisibles par la machine. Certains systèmes OCR peuvent créer des fichiers PDF annotés qui comprennent les versions avant et après du document numérisé.

Quels sont les types d’OCR ?

Les scientifiques des données classent les différents types de technologies OCR en fonction de leur utilisation et de leur application. En voici quelques exemples :

Logiciel de reconnaissance optique simple de caractères

Un moteur OCR simple fonctionne en stockant de nombreux modèles différents de polices et d’images de texte comme modèles. Le logiciel OCR utilise des algorithmes de reconnaissance de motifs pour comparer les images de texte, caractère par caractère, à sa base de données interne. Si le système fait correspondre le texte mot par mot : il s'agit d'une reconnaissance optique de mots. Cette solution présente des limites, car il existe un nombre pratiquement illimité de polices et de styles d'écriture, et chaque type ne peut être capturé et stocké dans la base de données.

Logiciel de reconnaissance intelligente des caractères

Les systèmes OCR modernes utilisent la technologie de reconnaissance intelligente des caractères (ICR) pour lire le texte de la même manière que les humains. Ils utilisent des méthodes avancées qui entraînent les machines à se comporter comme des humains en utilisant des logiciels de machine learning. Un système de machine learning, appelé réseau neuronal, analyse le texte sur plusieurs niveaux en traitant l'image de manière répétée. Il recherche différents attributs de l'image, tels que les courbes, les lignes, les intersections et les boucles, et combine les résultats de tous ces différents niveaux d'analyse pour obtenir le résultat final. Même si l'ICR traite généralement les images un caractère à la fois, le processus est rapide, les résultats étant obtenus en quelques secondes.

Reconnaissance intelligente des mots

Les systèmes de reconnaissance intelligente des mots fonctionnent sur les mêmes principes que l’ICR, mais traitent des images de mots entiers au lieu de prétraiter les images en caractères.

Reconnaissance optique des marques

La reconnaissance optique des marques identifie les logos, les filigranes et autres symboles textuels dans un document.

Que peut apporter AWS en matière d’OCR ?

AWS propose deux services qui peuvent vous aider à mettre en œuvre l’OCR dans votre entreprise :

Amazon Textract est un service de machine learning (ML) qui utilise l’OCR pour extraire automatiquement le texte, l’écriture manuscrite et les données des documents numérisés tels que les PDF. Il peut lire à grande vitesse des milliers de documents différents dans de multiples mises en page et formats.Il peut lire à grande vitesse des milliers de documents différents dans de multiples mises en page et formats. Lorsqu'il extrait des informations des documents, Amazon Textract renvoie une note de confiance pour tout ce qu'il identifie afin que vous puissiez prendre des décisions éclairées sur la manière dont vous souhaitez utiliser les résultats.

Amazon Rekognition peut analyser des millions d’images et de vidéos en quelques minutes et augmenter les tâches humaines de révision visuelle grâce à l’intelligence artificielle. Vous pouvez utiliser les API Amazon Rekognition pour extraire du texte à partir d'images et de vidéos. Vous pouvez extraire du texte oblique et déformé d'images et de vidéos de panneaux de signalisation, de messages de médias sociaux et d'emballages de produits.

Commencez à utiliser l’OCR sur AWS en créant un compte AWS aujourd’hui.

Qu’est-ce que la reconnaissance optique de caractères (OCR) ?

Qu’est-ce que la reconnaissance optique de caractères (OCR) ?

Pourquoi l'OCR est-elle importante ?

Quels sont les avantages de l’OCR ?

Texte consultable

Efficacité opérationnelle

Solutions d'intelligence artificielle

Quelles sont l’historique et l’évolution de l’OCR ?

Adoption anticipée

Expansion

Présent

Quels sont les différents cas d’utilisation de l’OCR dans le traitement de documents ?

Recherche intelligente d’archives de documents

Traitement du langage naturel

Normalisation des données

Automatiser le traitement des formulaires

Fonctionnalité de l’application

Comment l’OCR est-elle utilisée dans les différents secteurs d’activité ?

Banque

Soins de santé

Logistique

Comment fonctionne l’OCR ?

Acquisition d'image

Prétraitement

Reconnaissance de texte

Correspondance de motifs

Extraction de caractéristiques

Post-traitement

Quels sont les types d’OCR ?

Logiciel de reconnaissance optique simple de caractères

Logiciel de reconnaissance intelligente des caractères

Reconnaissance intelligente des mots

Reconnaissance optique des marques

Que peut apporter AWS en matière d’OCR ?

Prochaines étapes sur AWS

Consultez d’autres ressources liées aux produits

Créer gratuitement un compte

Commencer à créer dans la console

Browse all cloud computing concepts

Did you find what you were looking for today?

Apprendre

Ressources

Développeurs

Aide