Come rendere il testo selezionabile in un PDF scansionato

Un PDF scansionato mostra il testo che puoi leggere con gli occhi ma non puoi fare clic, selezionare, copiare o cercare. Questo perché il "testo" è in realtà una fotografia: pixel disposti in modo da sembrare lettere. Per rendere il testo selezionabile è necessario eseguire l'OCR, che legge l'immagine e aggiunge un vero livello di testo al documento. Dopo l'OCR, il PDF sembra identico ma il testo diventa copiabile, ricercabile e accessibile.

How to Make Text Selectable in a Scanned PDF

Che cosa fa l'OCR a un file scansionato PDF

L'OCR (riconoscimento ottico dei caratteri) analizza i modelli di pixel nell'immagine di ciascuna pagina, identifica le forme che corrispondono a lettere e numeri e crea uno strato di testo nascosto posizionato per allinearsi con i caratteri visibili. Dopo l'elaborazione OCR PDF, il documento presenta due livelli: l'immagine scansionata originale (invariata, ancora visibile) e un livello di testo sottostante che gli utenti utilizzano quando selezioni o esegui una ricerca.

L'aspetto visivo del documento non cambia: la scansione appare identica prima e dopo l'OCR. Ciò che cambia è la funzionalità del documento: il testo diventa selezionabile carattere per carattere, la ricerca Ctrl+F funziona, il copia-incolla produce testo reale invece di nulla e gli screen reader possono leggere il contenuto ad alta voce.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →

Utilizzo dello strumento OCR di WukongPDF

WukongPDF presso www.wukongpdf.com gestisce l'OCR nel browser senza installazione di software. Carica il PDF scansionato, seleziona la lingua del documento per una migliore precisione di riconoscimento, elaboralo e scarica il risultato ricercabile. Il file convertito è un PDF standard con un livello di testo, compatibile con ogni visualizzatore PDF.

Dopo il download, prova subito: apri il PDF, premi Ctrl+F e cerca una parola che puoi vedere nella prima pagina. Se lo trova, l'OCR ha funzionato. Prova a selezionare e copiare una frase: il testo incollato dovrebbe corrispondere a quello che vedi. Se non viene trovato nulla o il testo copiato sembra sbagliato, l'OCR presentava problemi di precisione, probabilmente dovuti alla qualità della scansione.

Scansioni migliorate di Adobe Acrobat

Adobe Acrobat Pro e Acrobat Standard includono una funzionalità OCR dedicata chiamata Migliora scansioni. Apri il PDF scansionato, vai su Strumenti > Migliora scansioni > Riconosci testo > In questo file. Impostare la lingua del documento e fare clic su Riconosci testo. Acrobat elabora le pagine e aggiunge il livello di testo. Per i documenti composti da più pagine, Acrobat elabora tutte le pagine in un'unica operazione.

Acrobat offre anche la funzione "Rendi ricercabile" opzione leggermente diversa dall'OCR completo: aggiunge un livello di testo senza tentare di ricostruire la struttura del documento. Per la maggior parte degli scopi, l'opzione Riconosci testo standard è preferibile in quanto produce un Scansionato PDF adeguatamente strutturato con un posizionamento accurato del testo.

Che cosa influenza la precisione dell'OCR

La precisione dell'OCR è direttamente legata alla qualità della scansione. Lo stesso documento scansionato bene produce risultati quasi perfetti; la scansione non è corretta produce errori che richiedono una correzione manuale.

Risoluzione: 300 DPI è il minimo per un OCR affidabile. Al di sotto di 200 DPI si prevedono errori frequenti, soprattutto su testo piccolo. 600 DPI migliorano la precisione ma producono file di grandi dimensioni.
Contrasto: testo nero chiaro su carta bianca esegue scansioni con una precisione quasi perfetta. Inchiostro sbiadito, carta colorata o basso contrasto producono più errori.
Inclinato: le pagine scansionate con un angolo significativo producono più errori. I moderni strumenti OCR includono il raddrizzamento per correggere un lieve disallineamento, ma gli angoli gravi compromettono la precisione.
Tipo di carattere: i caratteri tipografici stampati standard nei caratteri comuni (Times, Arial, Helvetica) vengono riconosciuti accuratamente. I caratteri decorativi, scritti a mano o molto piccoli producono più errori.

Dopo l'OCR: revisione prima di fare affidamento sul testo

L'OCR non è perfetto: anche le scansioni di alta qualità producono errori di riconoscimento occasionali. Gli errori più comuni includono la confusione di 0 con O, 1 con l, rn con m e la lettura errata dei caratteri vicino ai bordi della pagina. Per un documento in cui la precisione è importante (un contratto, un rendiconto finanziario, un documento legale) esamina l'output OCR rispetto all'originale prima di fare affidamento su di esso.

In Acrobat Pro, la funzione Trova e amp; La funzione Sostituisci può aiutare a individuare sistematicamente gli errori OCR comuni. Cerca "0" e controlla ciascun risultato per vedere se qualcuno dovrebbe essere "O" o viceversa. Per i documenti critici, una revisione completa rispetto alla scansione originale è l'unico modo per garantirne l'accuratezza. Per un utilizzo di riferimento generale, ad esempio rendere un archivio ricercabile ed estrarre testo per l'analisi, in genere è sufficiente un rapido controllo a campione.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →