Perché il mio PDF non è ricercabile?

Un PDF dove Ctrl+F non trova nulla, dove non puoi selezionare o copiare testo e dove facendo clic sul testo si disegna una casella rettangolare anziché evidenziare singole parole: questo è un documento senza un livello di testo. Viene memorizzato come immagine anziché come testo, il che significa che il lettore può vedere i caratteri ma il software non può interpretarli come caratteri.

Perché alcuni PDF non hanno un livello di testo

Il motivo più comune è la scansione. Quando un documento fisico viene scansionato e salvato come PDF, il risultato è una fotografia della pagina racchiusa in un contenitore PDF. Lo scanner cattura l'aspetto del documento come immagine, ma non sa quali sono i caratteri. Senza un passaggio OCR separato per interpretare l'immagine e aggiungere dati di testo, PDF è interamente basato sull'immagine.

Altre cause: PDF esportati da alcuni software di progettazione che trattano tutti i contenuti come grafica anziché preservare il testo come testo, PDF in cui il testo è stato convertito in contorni (una tecnica di progettazione che corregge l'aspetto visivo ma distrugge il livello di testo) e PDF creati fotografando documenti con un telefono senza alcuna app di scansione che applichi l'OCR.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →

Conferma del problema

Il test più veloce: prova a selezionare una parola cliccando e trascinandola sopra. Se singole parole o caratteri vengono evidenziati, il PDF ha un livello di testo ed è ricercabile, nel qual caso qualcos'altro sta causando il fallimento della ricerca (vedi la sezione seguente sui livelli di testo danneggiati). Se l'intera area della pagina viene selezionata come rettangolo indipendentemente da dove si trascina, la pagina viene archiviata come immagine senza testo.

Un controllo secondario: premi Ctrl+A per selezionare tutto. In un documento con un livello di testo, questo seleziona tutto il testo e puoi copiarlo. In un PDF di sole immagini, Ctrl+A seleziona la pagina come un intero oggetto: nessun testo viene inserito negli appunti quando copi.

Aggiunta di un livello di testo con OCR

L'OCR (riconoscimento ottico dei caratteri) legge l'immagine su ogni pagina e aggiunge uno strato di testo nascosto contenente i caratteri riconosciuti. L'aspetto visivo del documento non cambia (sembra ancora la scansione originale), ma il testo diventa selezionabile, copiabile e ricercabile.

Lo strumento OCR PDF di WukongPDF gestisce questa operazione nel browser: carica il PDF scansionato, esegue l'OCR e scarica la versione ricercabile. Per scansioni pulite e ad alto contrasto di testo stampato standard, la precisione è sufficientemente elevata da garantire che il livello di testo risultante sia affidabile per la ricerca. Apri il file elaborato e premi Ctrl+F per verificare: la ricerca di una parola che appare chiaramente nel documento dovrebbe trovarla immediatamente.

Quando il livello testo esiste ma la ricerca continua a non funzionare

A volte un PDF contiene del testo che può essere selezionato ma Ctrl+F non riesce ancora a trovarlo. Questo di solito si riduce a una delle tre cose. Innanzitutto, la codifica dei caratteri potrebbe essere danneggiata: PDF contiene dati di testo ma la tabella di mappatura dei caratteri è danneggiata, quindi lo spettatore può evidenziare qualcosa ma non sa quali caratteri sono quali. In secondo luogo, il livello di testo dell'OCR potrebbe contenere errori nella parola specifica che stai cercando. In terzo luogo, alcuni PDF utilizzano caratteri Unicode o codifiche speciali che non corrispondono al comportamento di ricerca standard.

Per problemi di codifica, l'esecuzione di PDF tramite un PDF Converter per estrarre e incorporare nuovamente il testo a volte risolve il problema di mappatura dei caratteri. La conversione in Word, che impone al testo un passaggio di ricodifica pulito, quindi l'esportazione in PDF può anche risolvere i problemi di ricerca causati dalla codifica dei caratteri danneggiata.

Prevenire il problema nelle scansioni future

Se effettui regolarmente la scansione di documenti che devono essere ricercabili, incorpora l'OCR nel flusso di lavoro di scansione anziché aggiungerlo in un secondo momento. La maggior parte dei software per scanner moderni dispone di un'opzione per applicare automaticamente l'OCR e salvare direttamente un PDF ricercabile. Le app di scansione del telefono come Microsoft Lens, Adobe Scan e la funzione fotocamera di Google Drive applicano tutte l'OCR per impostazione predefinita e producono PDF ricercabili fin dall'inizio, senza una fase di elaborazione separata.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →