Cos’è l’OCR (Riconoscimento Ottico dei Caratteri)?

Il riconoscimento ottico dei caratteri (OCR) è il processo che converte un'immagine di testo in un formato di testo leggibile dalla macchina. Ad esempio, se si esegue la scansione di un modulo o di una ricevuta, il computer salva la scansione come file immagine. Non sarà possibile utilizzare un editor di testo per modificare, cercare o contare le parole nel file immagine. Tuttavia, è possibile utilizzare l'OCR per convertire l'immagine in un documento di testo con i suoi contenuti archiviati come dati di testo.

Perché l’OCR è importante?

La maggior parte dei flussi di lavoro delle aziende riguarda la ricezione di informazioni da media stampati. Moduli cartacei, fatture, documenti legali scansionati e contratti stampati sono tutti parte dei processi aziendali. Questi ampi volumi cartacei richiedono tempo e spazio per essere archiviati e gestiti. Sebbene la gestione dei documenti paperless sia la strada da percorrere, la scansione dei documenti in immagini crea delle difficoltà. Il processo richiede un intervento manuale e può essere impegnativo e lento.

Inoltre, la digitalizzazione di questi contenuti di documenti crea file di immagini con il testo nascosto al suo interno. Il testo nelle immagini non può essere elaborato dal software di elaborazione di testi allo stesso modo dei documenti di testo. La tecnologia OCR risolve il problema convertendo immagini di testo in dati di testo che possono essere analizzati da altri software aziendali. Si possono dunque utilizzare i dati per eseguire analisi dei dati, semplificare le operazioni, automatizzare i processi e migliorare la produttività.

Come funziona l’OCR?

Il meccanismo OCR o software OCR funziona con i seguenti passaggi:

Acquisizione dell’immagine

Uno scanner legge i documenti e li converte in dati binari. Il software OCR analizza l’immagine scansionata e classifica le aree chiare come background e le aree scure come testo.

Pre-elaborazione

Il software OCR prima pulisce l’immagine e rimuove gli errori per prepararla alla lettura. Ecco alcune delle tecniche di pulizia:

  • Leggero raddrizzamento o ribaltamento del documento scansionato per sistemare i problemi di allineamento durante la scansione.
  • Smacchiatura o rimozione di qualsiasi chiazza sull’immagine digitale o smussatura dei bordi delle immagini di testo.
  • Eliminazione delle caselle e delle linee nell’immagine.
  • Riconoscimento dello script per la tecnologia OCR multi-lingua

Riconoscimento testuale

I due tipi principali di algoritmi OCR o processi software che un software OCR utilizza per il riconoscimento testuale sono detti pattern matching ed estrazione delle caratteristiche.

Pattern matching

Il pattern matching funziona isolando un'immagine di carattere, chiamata glifo, e confrontandola con un glifo simile archiviato. Il riconoscimento del pattern funziona solo se il glifo archiviato ha un font e una dimensione simile al glifo di input. Questo metodo funziona bene con le immagini scansionate di documenti che sono stati digitati in un font conosciuto.

Estrazione delle caratteristiche

L’estrazione delle caratteristiche scompone o decompone i glifi in caratteristiche come linee, cerchi chiusi, direzioni di linea e intersezioni di linea. Quindi utilizza queste caratteristiche per trovare l'abbinamento migliore o più vicino tra i vari glifi archiviati.

Post elaborazione

Dopo l’analisi, il sistema converte i dati testuali estratti in un file computerizzato. Alcuni sistemi OCR possono creare file PDF annotati che includono sia la prima che la seconda versione del documento scansionato.

Quali sono le tipologie di OCR?

I data scientist classificano diverse tipologie di tecnologie OCR basati sugli usi e le applicazioni. Ecco alcuni esempi:

Software di riconoscimento ottico dei caratteri (OCR) semplice

Un meccanismo OCR semplice funziona archiviando diversi font e pattern di immagini testuali sotto forma di modelli. Il software OCR utilizza algoritmi pattern-matching per confrontare immagini testuali, carattere per carattere, con il proprio database interno. Se il sistema abbina il testo parola per parola, è chiamato riconoscimento ottico delle parole. Questa soluzione ha dei limiti perché esistono font e calligrafie infiniti e ogni singolo carattere non può essere acquisito e archiviato nel database.

Software di riconoscimento dei caratteri intelligente

I moderni sistemi OCR utilizzano la tecnologia di riconoscimento intelligente dei caratteri (ICR) per leggere i testi allo stesso modo degli esseri umani. Utilizzano metodi avanzati che addestrano le macchine a comportarsi come gli umani attraverso l’utilizzo di software di machine learning. Un sistema di machine learning chiamato rete neurale analizza i testi a più livelli, processando ripetutamente l’immagine. Cerca diversi attributi dell’immagine, come curve, linee, intersezioni, cerchi, e combina i risultati di tutti questi livelli diversi di analisi per ottenere il risultato finale. Sebbene l’ICR elabori solitamente le immagini un carattere alla volta, il processo è veloce e restituisce risultati in pochi secondi.

Riconoscimento intelligente delle parole

Il sistema di riconoscimento intelligente delle parole funziona con gli stessi principi dell’ICR, ma elabora immagini di intere parole invece di pre-elaborare le immagini in caratteri.

Riconoscimento ottico dei segni

Il riconoscimento ottico dei segni identifica loghi, filigrane e altri simboli di testo in un documento.

Quali sono i vantaggi dell'OCR?

Di seguito sono illustrati i vantaggi maggiori della tecnologia OCR:

Testo ricercabile

Le aziende possono convertire i propri documenti esistenti e nuovi in un archivio di conoscenze interamente ricercabile. Possono anche elaborare i database di testo automaticamente, utilizzando software di analisi dei dati per un'ulteriore elaborazione della conoscenza.

Efficienza operativa

Si può migliorare l’efficienza utilizzando il software OCR per integrare automaticamente flussi di lavoro di documenti e flussi di lavoro digitali all’interno della propria azienda. Ecco alcuni esempi di cosa può fare un software OCR:

  • Scansionare moduli riempiti a mano per verifiche automatiche, revisioni, editing e analisi. Ciò fa risparmiare il tempo necessario per l’elaborazione manuale del documento e l’inserimento dei dati.
  • Trovare i documenti richiesti ricercando rapidamente un termine nel database così da non dover scorrere manualmente attraverso i file di una finestra.
  • Convertire appunti scritti a mano in testi editabili e documenti.

Soluzioni di intelligenza artificiale

L'OCR è spesso parte di altre soluzioni di intelligenza artificiale che le aziende possono implementare. Ad esempio, scansiona e legge targhe e cartelli stradali nelle auto a guida autonoma, individua i loghi dei brand nei post sui social media o identifica l’imballaggio dei prodotti nelle immagini pubblicitarie. Tale tecnologia di intelligenza artificiale aiuta le aziende a prendere decisioni di marketing e operative migliori in grado di ridurre le spese e ottimizzare l’esperienza cliente.

Per cosa è utilizzato l’OCR?

Di seguito, alcuni casi d’uso dell'OCR in diversi settori:

Servizi bancari

Il settore dei servizi bancari utilizza l’OCR per elaborare e verificare i documenti di prestito, gli assegni di deposito e altre transazioni finanziarie. Questa verifica ha migliorato la prevenzione delle frodi e ha migliorato la sicurezza nelle transazioni. Ad esempio, BlueVine è una società di tecnologia finanziaria che fornisce finanziamenti a piccole e medie imprese. Ha utilizzato Amazon Textract, un servizio OCR basato sul cloud, per sviluppare un prodotto per piccole imprese negli USA per accedere velocemente ai prestiti del Paycheck Protection Program (PPP) come parte del pacchetto di incentivi di soccorso per la pandemia da COVID-19. Amazon Textract ha elaborato e analizzato automaticamente decine di migliaia di moduli PPP al giorno, così che BlueVine potesse aiutare diverse migliaia di aziende a raccogliere fondi, risparmiando oltre 400.000 posti di lavoro nel processo.

Settore sanitario

Il settore della sanità utilizza l'OCR per elaborare le cartelle cliniche dei pazienti, incluse cure, esami, registri ospedalieri e pagamenti assicurativi. L'OCR facilita il flusso di lavoro e riduce il lavoro manuale negli ospedali, tenendo aggiornati i registri. Ad esempio, il nib Group offre polizze di assicurazione sanitaria e medica a oltre un milione di australiani e riceve migliaia di parcelle mediche al giorno. I clienti possono fotografare le proprie fatture mediche e inviarle attraverso l’applicazione per dispositivi mobili di nib. Amazon Textract elabora queste immagini automaticamente così che la società possa approvare più velocemente i reclami.

Logistica

Le società di logistica utilizzano l'OCR per tracciare le etichette di pacchi, fatture, ricevute e altri documenti in modo più efficace. Ad esempio, il Foresight Group utilizza Amazon Textract per automatizzare l’elaborazione delle fatture in SAP. L’inserimento manuale di questi documenti aziendali richiede molto tempo ed è soggetto a errori, in quanto gli impiegati di Foresight dovevano inserire i dati in diversi sistemi di contabilità. Con Amazon Textract, il software della Foresight può leggere caratteri più accuratamente in molti layout diversi, il che incrementa l’efficienza dell’azienda.

In che modo AWS può fornire il suo contributo all'OCR?

AWS offre due servizi che possono aiutare ad implementare l'OCR nella propria azienda:

Amazon Textract è un servizio di machine learning (ML) che utilizza l’OCR per estrarre automaticamente testo, scrittura a mano e dati da documenti scansionati come i PDF. Può leggere migliaia di diversi documenti in più layout e formati diversi ad alta velocità. Quando estrae informazioni dai documenti, Amazon Textract restituisce un punteggio di affidabilità per tutti gli oggetti che è in grado di identificare, consentendo di prendere decisioni informate su come utilizzare i risultati.

Amazon Rekognitionpuò analizzare milioni di immagini e video in pochi minuti e incrementare i processi di revisione visiva umana con l'intelligenza artificiale (IA). Si possono utilizzare le API di Amazon Rekognition per estrarre testi sia da immagini che da video. È possibile estrarre un testo alterato e distorto da immagini e video di cartelli stradali, post di social media e imballaggi di prodotti.

Inizia oggi stesso a utilizzare l'OCR su AWS creando un account AWS.

Fasi successive del machine learning di AWS

Standard Product Icons (Features) Squid Ink
Scopri ulteriori risorse correlate al prodotto
Ulteriori informazioni sui servizi di machine learning 
Sign up for a free account
Visualizza i servizi gratuiti di machine learning

Effettua l’accesso immediato ai servizi di machine learning Piano gratuito di AWS.

Inizia a utilizzarlo gratuitamente 
Standard Product Icons (Start Building) Squid Ink
Inizia a costruire nella console

Inizia subito a utilizzare Amazon SageMaker nella Console di gestione AWS.

Registrati