Come funziona Image-to-Text (ovvero riconoscimento ottico dei caratteri)

Estrarre il testo dalle immagini non è mai stato più facile di oggi grazie alla tecnologia di riconoscimento ottico dei caratteri (OCR). Ma cos'è l'OCR? E come funziona l'OCR?

Estrarre il testo dalle immagini non è mai stato più facile di oggi grazie alla tecnologia di riconoscimento ottico dei caratteri (OCR).  Ma cos'è l'OCR?  E come funziona l'OCR?
Annuncio pubblicitario

Estrarre il testo dalle immagini non è mai stato più facile di oggi grazie alla tecnologia di riconoscimento ottico dei caratteri (OCR).

OCR ci permette di fare ogni tipo di cose utili, come cercare le immagini usando le interrogazioni di testo, riprodurre documenti senza dattilografarli a mano e persino convertire il testo scritto a mano in testo digitale Come convertire un'immagine con la scrittura a mano con il testo usando OCR Come convertire un'immagine con la scrittura a mano con testo utilizzando l'OCR Per convertire un'immagine di testo scritto a mano in testo digitale che è possibile modificare e cercare, è necessario uno strumento OCR (riconoscimento ottico dei caratteri). Prova uno di questi strumenti OCR per digitalizzare la scrittura a mano. Leggi di più .

Ma cos'è il riconoscimento ottico dei caratteri? Come funziona davvero? Potrebbe sembrare una magia nera per te, ma alla fine di questo articolo avrai una solida comprensione di come i computer possono riconoscere lettere e parole.

Come funziona il riconoscimento ottico dei caratteri

Per capire come il testo viene estratto da un'immagine, dobbiamo prima capire quali sono le immagini e come vengono memorizzate sui computer.

Un pixel è un singolo punto di un colore particolare. Un'immagine è essenzialmente una raccolta di pixel. Maggiore è il numero di pixel in un'immagine, maggiore è la risoluzione. Un computer non sa che l'immagine di un cartello è in realtà un cartello: sa solo che il primo pixel è questo colore, il pixel successivo è quel colore e mostra tutti i suoi pixel che puoi vedere.

Ciò significa che il testo e il non-testo non sono diversi da un computer, ed è per questo che il riconoscimento ottico dei caratteri è così difficile. Con questo in mente, ecco come funziona.

Passaggio 1: Pre-elaborazione dell'immagine

Prima che il testo possa essere tirato, l'immagine deve essere massaggiata in alcuni modi per rendere l'estrazione più facile e più probabile che abbia successo. Questo è chiamato pre-elaborazione e diverse soluzioni software utilizzano diverse combinazioni di tecniche.

Le più comuni tecniche di pre-elaborazione includono:

Binarization
Ogni singolo pixel dell'immagine viene convertito in bianco o nero. L'obiettivo è chiarire quali pixel appartengono al testo e quali pixel appartengono allo sfondo, il che accelera l'effettivo processo OCR.

Binarizzazione per riconoscimento ottico dei caratteri

Raddrizza
Poiché i documenti vengono scansionati raramente con un allineamento perfetto, i caratteri potrebbero risultare inclinati o addirittura capovolti. L'obiettivo qui è identificare linee di testo orizzontali e quindi ruotare l'immagine in modo che quelle linee siano effettivamente orizzontali.

Smacchia
Se l'immagine è stata binarizzata o meno, potrebbe esserci rumore che può interferire con l'identificazione dei personaggi. Despeckling si sbarazza di quel rumore e cerca di appianare l'immagine.

Rimozione linea
Identifica tutte le linee e i segni che probabilmente non sono caratteri, quindi li rimuove in modo che l'attuale processo OCR non venga confuso. È particolarmente importante quando si scandiscono documenti con tabelle e scatole.

azzonamento
Separa l'immagine in blocchi di testo distinti, come l'identificazione di colonne in documenti a più colonne.

Zonizzazione per il riconoscimento ottico dei caratteri
Immagine di credito: WayneRay / Wikimedia

Passaggio 2: elaborazione dell'immagine

Per prima cosa, il processo OCR cerca di stabilire la linea di base per ogni riga di testo nell'immagine (o se è stata suddivisa in zone in pre-elaborazione, funzionerà attraverso ciascuna zona una alla volta). Ogni riga di caratteri identificata viene gestita una per una.

Per ogni linea di caratteri, il software OCR identifica la spaziatura tra i caratteri cercando linee verticali di pixel non di testo (che dovrebbero essere ovvi con la corretta binarizzazione). Ogni blocco di pixel tra queste righe non di testo è contrassegnato come un "token" che rappresenta un carattere. Quindi, questo passaggio è chiamato tokenizzazione .

Elaborazione delle immagini per il riconoscimento ottico dei caratteri

Una volta che tutti i potenziali personaggi dell'immagine sono stati tokenizzati, il software OCR può utilizzare due tecniche diverse per identificare quali caratteri sono effettivamente quei token:

Pattern recognition
Ogni token viene confrontato pixel-a-pixel rispetto a un intero insieme di glifi noti, inclusi numeri, punteggiatura e altri simboli speciali, e viene selezionata la corrispondenza più vicina. Questa tecnica è anche nota come corrispondenza della matrice.

Ci sono diversi inconvenienti qui. Innanzitutto, i token e glifi devono essere di dimensioni simili altrimenti nessuno di essi corrisponderà. In secondo luogo, i token devono essere in un font simile come i glifi, il che esclude la scrittura a mano. Ma se il carattere del token è noto, il riconoscimento di pattern può essere veloce e preciso.

Estrazione di feature
Ogni token viene confrontato con regole diverse che descrivono il tipo di carattere che potrebbe essere. Ad esempio, due linee verticali di uguale altezza collegate da una sola linea orizzontale sono probabilmente una capitale H.

Questa tecnica è utile perché non è limitata a determinati caratteri o dimensioni. Può anche essere più sfumato nel riconoscere le sottili differenze tra una I maiuscola, una L minuscola e il numero 1. Il rovescio della medaglia? La programmazione delle regole è molto più complessa del semplice confronto dei pixel in un token con i pixel in un glifo.

Passaggio 3: post-elaborazione dell'immagine

Una volta completata la corrispondenza del token, il software OCR potrebbe chiamarlo solo un giorno e presentare i risultati. Ma di solito è necessario fare un po 'di più per essere sicuro di non far roteare gli occhi a risultati senza senso.

Restrizione lessicale
Tutte le parole sono confrontate con un lessico di parole approvate e quelle che non corrispondono vengono sostituite con la parola più appropriata. Un dizionario è un esempio di un lessico. Questo può aiutare a correggere le parole con caratteri errati, come "thorn" invece di "th0rn".

Ottimizzazioni specifiche dell'applicazione
Quando l'OCR viene utilizzato in impostazioni di nicchia, ad esempio per documenti medici o legali, può essere utilizzato un tipo speciale di OCR appositamente progettato per tale impostazione. In questi casi, il software OCR può cercare equazioni matematiche, termini specifici del settore, ecc.

Linguaggio naturale
Questa tecnica avanzata corregge le frasi usando un modello linguistico che descrive la probabilità che determinate parole debbano essere seguite da altre parole. È simile alla tecnologia che prevede quale parola si desidera digitare successivamente su una tastiera mobile.

Se fatto bene, questo può risultare in un testo che è notevolmente leggibile.

Strumenti di riconoscimento ottico dei caratteri raccomandati

Ora che sai come funziona l'OCR, dovrebbe essere facile vedere che non tutti gli strumenti OCR sono uguali. La precisione dei risultati dipenderà in gran parte dal modo in cui il software implementa le varie tecniche OCR discusse in questo articolo.

Ti consigliamo vivamente OneNote per questo, che è solo uno dei motivi per cui batte Evernote per prendere appunti su Evernote e OneNote: quale app per prendere appunti è adatta a te? Evernote vs. OneNote: quale app per prendere appunti è adatta a te? Evernote e OneNote sono incredibili app per prendere appunti. È difficile scegliere tra i due. Abbiamo confrontato tutto, dall'interfaccia all'organizzazione delle note per aiutarti a scegliere. Cosa funziona meglio per te? Leggi di più . Se sei disposto a pagare per una soluzione premium, considera OmniPage. Guarda il nostro confronto tra OneNote e OmniPage per OCR Software gratuito vs OCR a pagamento: Microsoft OneNote e Nuance OmniPage Software Confronto gratuito vs OID a pagamento: Microsoft OneNote e Nuance OmniPage Il software di scansione OCR a confronto ti consente di convertire il testo in immagini o PDF in testo modificabile documenti. Uno strumento OCR gratuito come OneNote è abbastanza buono? Scopriamolo! Leggi di più . Per i documenti mobili, ti consigliamo di dare un'occhiata a queste app OCR per dispositivi Android 6 Le migliori app OCR Android per estrarre testo da immagini 6 Le migliori app OCR Android per estrarre testo da immagini Hai bisogno di digitalizzare qualsiasi testo stampato in modo da poter mantenere un copia morbida di esso? Se è così, tutto ciò che serve è uno strumento di riconoscimento ottico dei caratteri (OCR). Leggi di più .

Come usi OCR? Hai qualche strumento OCR preferito che non abbiamo menzionato? Fateci sapere nei commenti qui sotto!

In this article