Passa al contenuto principale

Cos'è un OCR (riconoscimento ottico dei caratteri)?

Il riconoscimento ottico dei caratteri (OCR) è il processo che converte un'immagine di testo in un formato di testo leggibile dalla macchina. Ad esempio, se si esegue la scansione di un modulo o di una ricevuta, il computer salva la scansione come file immagine. Non sarà possibile utilizzare un editor di testo per modificare, cercare o contare le parole nel file immagine. Tuttavia, è possibile utilizzare l'OCR per convertire l'immagine in un documento di testo con i suoi contenuti archiviati come dati di testo.

Perché l'OCR è importante?

La maggior parte dei flussi di lavoro delle aziende riguarda la ricezione di informazioni da media stampati. Moduli cartacei, fatture, documenti legali scansionati e contratti stampati sono tutti parte dei processi aziendali. Questi ampi volumi cartacei richiedono tempo e spazio per essere archiviati e gestiti. Sebbene la gestione dei documenti paperless sia la strada da percorrere, la scansione dei documenti in immagini crea delle difficoltà. Il processo richiede un intervento manuale e può essere impegnativo e lento.

Inoltre, la digitalizzazione di questi contenuti di documenti crea file di immagini con il testo nascosto all'interno. Il testo nelle immagini non può essere elaborato dal software di elaborazione di testi allo stesso modo dei documenti di testo. La tecnologia OCR risolve il problema convertendo immagini di testo in dati di testo che possono essere analizzati da altri software aziendali. Si possono dunque utilizzare i dati per eseguire analisi dei dati, semplificare le operazioni, automatizzare i processi e migliorare la produttività.

Quali sono i vantaggi dell'OCR?

Di seguito sono illustrati i principali vantaggi della tecnologia OCR:

Testo ricercabile

Le aziende possono convertire i propri documenti esistenti e nuovi in un archivio di conoscenze interamente ricercabile. Possono anche elaborare i database di testo automaticamente, utilizzando software di analisi dei dati per un'ulteriore elaborazione della conoscenza.

Efficienza operativa

Si può migliorare l’efficienza utilizzando il software OCR per integrare automaticamente flussi di lavoro di documenti e flussi di lavoro digitali all’interno della propria azienda. Ecco alcuni esempi di cosa può fare un software OCR:

  • Scansionare moduli riempiti a mano per verifiche automatiche, revisioni, editing e analisi. Ciò fa risparmiare il tempo necessario per l’elaborazione manuale del documento e l’inserimento dei dati.
  • Trovare i documenti richiesti ricercando rapidamente un termine nel database così da non dover scorrere manualmente attraverso i file di una finestra.
  • Convertire appunti scritti a mano in testi editabili e documenti.
     

Soluzioni di intelligenza artificiale

L'OCR è spesso parte di altre soluzioni di intelligenza artificiale che le aziende possono implementare. Ad esempio, scansiona e legge targhe e cartelli stradali nelle auto a guida autonoma, individua i loghi dei brand nei post sui social media o identifica l’imballaggio dei prodotti nelle immagini pubblicitarie. Tale tecnologia di intelligenza artificiale aiuta le aziende a prendere decisioni di marketing e operative migliori in grado di ridurre le spese e ottimizzare l'esperienza cliente.

Qual è la storia e l'evoluzione dell'OCR?

Uno dei primi sviluppi noti dell'OCR fu la macchina di Emanuel Goldberg negli anni '20, in grado di leggere i caratteri e convertirli in codice telegrafico. Ciò ha gettato le basi per l'idea della lettura automatica.

Adozione anticipata

Negli anni '50, l'OCR iniziò a prendere forma come tecnologia commerciale. Aziende come RCA hanno sviluppato sistemi in grado di leggere caratteri specifici per applicazioni bancarie e postali. Questi sistemi sono stati utilizzati per automatizzare l'elaborazione degli assegni e lo smistamento della posta: usi ristretti ma di grande impatto.

Durante gli anni '60, i caratteri OCR-A e OCR-B sono stati progettati per essere letti facilmente sia dagli esseri umani che dalle macchine. La loro introduzione ha permesso all'OCR di diventare più coerente tra finanza e governo.

Espansione

I miglioramenti negli scanner e negli algoritmi software hanno contribuito a rendere l'OCR pratico per l'uso aziendale quotidiano. I primi programmi potevano scansionare documenti cartacei stampati e convertirli in testo modificabile, sebbene la precisione fosse limitata.

Negli anni 2000, le reti neurali e le prime tecnologie di machine learning hanno consentito all'OCR di andare oltre i caratteri e i layout fissi. I sistemi moderni sono ora in grado di interpretare testo scritto a mano, scansioni di scarsa qualità e layout complessi con una precisione molto maggiore.

Presente

Oggi, l'OCR si è evoluto da uno strumento di nicchia a una tecnologia fondamentale nella trasformazione digitale. È integrato in tutto, dalle app mobili alle piattaforme di automazione aziendale. Supporta più lingue e gestisce l'acquisizione di immagini in tempo reale in modo sensibile al contesto. Oggi è parte integrante dell'automazione intelligente.

Quali sono i diversi casi d'uso dell'OCR nell'elaborazione dei documenti?

L'OCR è parte integrante dei flussi di lavoro di elaborazione dei documenti aziendali. Considera i seguenti casi d'uso.

Ricerca intelligente negli archivi di documenti

La tecnologia OCR consente la creazione di archivi digitali ricercabili estraendo testo da documenti PDF e basati su immagini. Una volta riconosciuto, il testo può essere indicizzato e utilizzato nei sistemi di ricerca basati sull'intelligenza artificiale. Gli utenti possono cercare i file pertinenti su grandi volumi di file in modo rapido e preciso, senza ulteriori classificazioni dei documenti. Ad esempio, la ricerca di un nome cliente specifico restituirebbe tutti gli ordini di pagamento, le fatture e i moduli originariamente inviati come documenti.

Le aziende possono convertire i propri documenti stampati esistenti e nuovi in un archivio di conoscenze interamente ricercabile. Possono anche elaborare i database di testo automaticamente, utilizzando software di analisi dei dati per un'ulteriore elaborazione della conoscenza.

Elaborazione del linguaggio naturale

L'OCR riconosce ed estrae il testo a livello di parola, riga o cella di tabella, offrendo un maggiore controllo sulla preparazione dei contenuti per le attività di elaborazione del linguaggio naturale (NLP) a valle, come la classificazione dei documenti, il riepilogo, l'analisi del sentiment, la modellazione degli argomenti, il riconoscimento delle entità e altro ancora. Ad esempio, il riepilogo richiederà l'estrazione del testo nei paragrafi, ma il riconoscimento delle entità potrebbe preferire l'estrazione del testo in coppie chiave-valore, come un file JSON.

Standardizzazione dei dati

I flussi di lavoro dei documenti spesso coinvolgono dati non strutturati provenienti da formati e settori diversi. L'OCR aiuta a normalizzare questi dati estraendo testo e tabelle da diversi tipi di documenti come rendiconti finanziari, note cliniche e rapporti tecnici. Ottieni un'elaborazione più rapida e una gestione dei dati più coerente tra i sistemi.

Automatizzazione dell'elaborazione dei moduli

La tecnologia OCR svolge un ruolo chiave nell'automazione dell'elaborazione dei moduli. È in grado di identificare i campi ed estrarre informazioni strutturate da vari tipi di moduli, consentendo alle aziende di integrare questi dati direttamente nei database senza alcuna immissione manuale.

Funzionalità dell'applicazione

Le funzionalità OCR possono essere integrate direttamente nelle applicazioni aziendali in modo che gli utenti possano eseguire autonomamente l'estrazione del testo in tempo reale. Ciò riduce il carico di lavoro di analisi poiché i dati vengono raccolti correttamente all'origine.

Come viene utilizzato l'OCR in diversi settori?

Di seguito, alcuni casi d'uso dell'OCR in diversi settori:

Servizi bancari

Il settore dei servizi bancari utilizza l’OCR per elaborare e verificare i documenti di prestito, gli assegni di deposito e altre transazioni finanziarie. Questa verifica ha migliorato la prevenzione delle frodi e ha migliorato la sicurezza nelle transazioni. Ad esempio, BlueVine è una società di tecnologia finanziaria che fornisce finanziamenti a piccole e medie imprese. Ha utilizzato Amazon Textract, un servizio OCR basato sul cloud, per sviluppare un prodotto per piccole imprese negli USA per accedere velocemente ai prestiti del Paycheck Protection Program (PPP) come parte del pacchetto di incentivi di soccorso per la pandemia da COVID-19. Amazon Textract ha elaborato e analizzato automaticamente decine di migliaia di moduli PPP al giorno, così che BlueVine potesse aiutare diverse migliaia di aziende a raccogliere fondi, risparmiando oltre 400.000 posti di lavoro nel processo.

Settore sanitario

Il settore della sanità utilizza l'OCR per elaborare le cartelle cliniche dei pazienti, incluse cure, esami, registri ospedalieri e pagamenti assicurativi. L'OCR facilita il flusso di lavoro e riduce il lavoro manuale negli ospedali, tenendo aggiornati i registri. Ad esempio, il nib Group offre polizze di assicurazione sanitaria e medica a oltre un milione di australiani e riceve migliaia di parcelle mediche al giorno. I clienti possono fotografare le proprie fatture mediche e inviarle attraverso l’applicazione per dispositivi mobili di nib. Amazon Textract elabora queste immagini automaticamente così che la società possa approvare più velocemente i reclami.

Logistica

Le società di logistica utilizzano l'OCR per tracciare le etichette di pacchi, fatture, ricevute e altri documenti in modo più efficace. Ad esempio, il Foresight Group utilizza Amazon Textract per automatizzare l’elaborazione delle fatture in SAP. L’inserimento manuale di questi documenti aziendali richiede molto tempo ed è soggetto a errori, in quanto gli impiegati di Foresight dovevano inserire i dati in diversi sistemi di contabilità. Con Amazon Textract, il software Foresight può leggere caratteri più accuratamente in molti layout diversi, il che incrementa l'efficienza dell'azienda.

Come funziona l'OCR?

Il meccanismo OCR o software OCR funziona con i seguenti passaggi:

Acquisizione dell’immagine

Uno scanner legge i documenti e li converte in dati binari. Il software OCR analizza l’immagine scansionata e classifica le aree chiare come background e le aree scure come testo.

Pre-elaborazione

Il software OCR prima pulisce l’immagine e rimuove gli errori per prepararla alla lettura. Ecco alcune delle tecniche di pulizia:

  • Leggero raddrizzamento o ribaltamento del documento scansionato per sistemare i problemi di allineamento durante la scansione.
  • Smacchiatura o rimozione di qualsiasi chiazza sull’immagine digitale o smussatura dei bordi delle immagini di testo.
  • Eliminazione delle caselle e delle linee nell’immagine.
  • Riconoscimento dello script per la tecnologia OCR multi-lingua

Riconoscimento testuale

I due tipi principali di algoritmi OCR o processi software che un software OCR utilizza per il riconoscimento testuale sono detti pattern matching ed estrazione delle caratteristiche.

Pattern matching

Il pattern matching funziona isolando un'immagine di carattere, chiamata glifo, e confrontandola con un glifo simile archiviato. Il riconoscimento del pattern funziona solo se il glifo archiviato ha un font e una dimensione simile al glifo di input. Questo metodo funziona bene con le immagini scansionate di documenti che sono stati digitati in un font conosciuto.

Estrazione delle caratteristiche

L’estrazione delle caratteristiche scompone o decompone i glifi in caratteristiche come linee, cerchi chiusi, direzioni di linea e intersezioni di linea. Quindi utilizza queste caratteristiche per trovare l'abbinamento migliore o più vicino tra i vari glifi archiviati.

Post elaborazione

Dopo l'analisi, il sistema converte i dati di testo estratti in documenti di testo leggibili dalla macchina. Alcuni sistemi OCR possono creare file PDF annotati che includono sia la prima che la seconda versione del documento scansionato.

Quali sono le tipologie di OCR?

I data scientist classificano diverse tipologie di tecnologie OCR in base agli usi e alle applicazioni. Ecco alcuni esempi:

Software di riconoscimento ottico dei caratteri (OCR) semplice

Un meccanismo OCR semplice funziona archiviando diversi font e pattern di immagini testuali sotto forma di modelli. Il software OCR utilizza algoritmi pattern matching per confrontare immagini testuali, carattere per carattere, con il proprio database interno. Se il sistema abbina il testo parola per parola, è chiamato riconoscimento ottico delle parole. Questa soluzione ha dei limiti perché esistono font e calligrafie infiniti e ogni singolo carattere non può essere acquisito e archiviato nel database.

Software di riconoscimento dei caratteri intelligente

I moderni sistemi OCR utilizzano la tecnologia di riconoscimento intelligente dei caratteri (ICR) per leggere i testi allo stesso modo degli esseri umani. Utilizzano metodi avanzati che addestrano le macchine a comportarsi come gli umani attraverso l’utilizzo di software di machine learning. Un sistema di machine learning chiamato rete neurale analizza i testi a più livelli, processando ripetutamente l’immagine. Cerca diversi attributi dell’immagine, come curve, linee, intersezioni, cerchi, e combina i risultati di tutti questi livelli diversi di analisi per ottenere il risultato finale. Sebbene l’ICR elabori solitamente le immagini un carattere alla volta, il processo è veloce e restituisce risultati in pochi secondi.

Riconoscimento intelligente delle parole

Il sistema di riconoscimento intelligente delle parole funziona con gli stessi principi dell’ICR, ma elabora immagini di intere parole invece di pre-elaborare le immagini in caratteri.

Riconoscimento ottico dei segni

Il riconoscimento ottico dei segni identifica loghi, filigrane e altri simboli di testo in un documento.

In che modo AWS può aiutare con l'OCR?

AWS offre due servizi che possono aiutarti a implementare l'OCR nella tua azienda:

Amazon Textract è un servizio di machine learning (ML) che utilizza l'OCR per estrarre automaticamente testo, scrittura a mano e dati da documenti scansionati come i PDF. Può leggere migliaia di diversi documenti in più layout e formati diversi ad alta velocità. Quando estrae informazioni dai documenti, Amazon Textract restituisce un punteggio di affidabilità per tutti gli oggetti che è in grado di identificare, consentendo di prendere decisioni informate su come utilizzare i risultati.

Amazon Rekognition può analizzare milioni di immagini e video in pochi minuti e incrementare i processi di revisione visiva umana con l'intelligenza artificiale. Si possono utilizzare le API di Amazon Rekognition per estrarre testi sia da immagini che da video. È possibile estrarre un testo alterato e distorto da immagini e video di cartelli stradali, post di social media e imballaggi di prodotti.

Inizia oggi stesso a utilizzare l'OCR su AWS creando un account AWS.