Che cos'è l'OCR e come funziona con PDF?

OCR sta per riconoscimento ottico dei caratteri. È la tecnologia che legge il testo dalle immagini, inclusi documenti scansionati, fotografie di pagine e PDF di sole immagini, e converte ciò che vede in dati di testo effettivi che i computer possono elaborare. Se hai mai scansionato un documento e ti sei chiesto perché non puoi cercare o copiare il testo, OCR è la soluzione.

What Is OCR and How Does It Work With PDFs?

Il problema risolto dall'OCR

Quando si esegue la scansione di un documento, lo scanner cattura una fotografia della pagina. Per un computer, questa fotografia non è altro che pixel: punti colorati disposti su una griglia. Le parole che puoi vedere nell'immagine non esistono come testo dal punto di vista del computer. Non può cercarli, copiarli, tradurli o leggerli ad alta voce.

L’OCR colma questa lacuna. Analizza i modelli di pixel nell'immagine, identifica le forme che corrispondono a lettere e numeri e converte tali forme in caratteri di testo effettivi. Dopo l'elaborazione OCR PDF, il documento presenta due livelli: l'immagine originale (che sembra ancora esattamente la stessa) e un livello di testo nascosto che il computer può leggere, cercare ed elaborare.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →

Come funziona effettivamente l'OCR

I moderni sistemi OCR utilizzano modelli di apprendimento automatico addestrati su milioni di immagini di documenti. Durante l'elaborazione di una pagina, il sistema attraversa diverse fasi:

Preelaborazione dell'immagine: l'immagine viene ripulita: raddrizzata se è inclinata, il contrasto viene migliorato, il rumore viene ridotto. Un'immagine più pulita produce un riconoscimento più accurato.
Analisi del layout: il sistema identifica la struttura della pagina: dove sono i blocchi di testo, dove sono le immagini, l'ordine di lettura, i limiti delle colonne, le celle della tabella.
Riconoscimento dei caratteri: il modello analizza la forma di ogni carattere e assegna la lettera, il numero o il simbolo più probabile. Considera il contesto: "tHe" è più probabile che sia "il" - per migliorare la precisione.
Creazione del livello di testo: i caratteri riconosciuti vengono assemblati in parole e frasi, posizionati per allinearsi con l'immagine originale e incorporati nel PDF come livello di testo ricercabile.

Che cosa influenza la precisione dell'OCR

La precisione dell'OCR varia considerevolmente a seconda della qualità dell'immagine sorgente e del contenuto riconosciuto:

Risoluzione di scansione: DPI più alti produce bordi dei caratteri più puliti e un migliore riconoscimento. 300 DPI è il minimo consigliato per un OCR affidabile. Le immagini inferiori a 150 DPI spesso producono errori significativi.
Tipo di carattere: i caratteri stampati standard nei caratteri tipografici comuni (Times, Arial, Helvetica) sono riconosciuti con elevata precisione. I caratteri decorativi, i caratteri insoliti e il testo molto piccolo producono più errori.
Condizione del documento: carta ingiallita, inchiostro scolorito, sbavature, scansione distorta e ombre sono tutti fattori che riducono la qualità del riconoscimento. Una scansione pulita, diritta e ad alto contrasto produce i migliori risultati.
Lingua: le lingue comuni (inglese, spagnolo, francese, tedesco, cinese, giapponese) hanno dati di addestramento estesi ed elevata precisione. Lingue e scritture meno comuni potrebbero contenere più errori.
Scrittura: L'OCR sul testo stampato è estremamente accurato. Il riconoscimento della grafia è un problema diverso e più difficile: la precisione varia notevolmente in base allo stile di grafia e al modello specifico utilizzato.

Come appare il risultato

Dopo l'OCR, il PDF appare identico a prima: l'immagine scansionata originale è rimasta invariata. La differenza è invisibile all'occhio ma significativa nella funzione. Il documento ora ha un livello di testo nascosto allineato con l'immagine. Quando cerchi una parola, lo spettatore la trova nel livello testo e la evidenzia nell'immagine. Quando selezioni e copi il testo, stai copiando dal livello testo. Quando un'utilità per la lettura dello schermo annuncia il contenuto, legge il livello di testo.

Il livello dell'immagine e il livello del testo sono separati: l'OCR non altera in alcun modo la scansione originale. Se l'OCR ha commesso errori, l'immagine mostra comunque il testo originale corretto; solo il livello di testo nascosto contiene l'errore.

Come applicare l'OCR a un PDF

Lo strumento OCR PDF di WukongPDF presso www.wukongpdf.com gestisce questa operazione senza bisogno di software desktop: carica il PDF scansionato, seleziona la lingua del documento per una maggiore precisione, elabora e scarica il risultato ricercabile. L'operazione richiede in genere 10-30 secondi per un documento standard.

Adobe Acrobat Pro dispone di una funzione OCR incorporata (Strumenti > Migliora scansioni > Riconosci testo) con opzioni aggiuntive per il controllo della qualità del riconoscimento e la gestione di documenti multipagina. Per le organizzazioni che elaborano grandi volumi di documenti scansionati, la funzionalità OCR batch di Acrobat elabora automaticamente intere cartelle di file.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →