Premere Ctrl+F in un PDF e non trovare nulla (o trovare la barra di ricerca funziona ma restituisce zero risultati anche per le parole che puoi vedere chiaramente sulla pagina) è un problema del livello di testo. Il PDF non contiene testo ricercabile, il che significa che quello che stai guardando è un'immagine anziché caratteri reali. La soluzione è l'OCR ed è più veloce di quanto la maggior parte delle persone si aspetti.

Perché alcuni PDF non hanno testo ricercabile
Un PDF può contenere due tipi di contenuto fondamentalmente diversi. Il primo è il testo reale: caratteri memorizzati come dati di testo che possono essere cercati, selezionati e copiati. Il secondo sono i dati dell’immagine: una fotografia di una pagina in cui le lettere sono solo pixel, visivamente indistinguibili dal testo reale sullo schermo ma strutturalmente completamente diverse.
I documenti scansionati sono sempre basati su immagini: lo scanner fotografa la pagina. Ma anche i documenti creati digitalmente possono diventare solo immagini se sono stati convertiti appiattindo il contenuto, esportati da alcuni software di progettazione senza conservazione del testo o salvati tramite flussi di lavoro da stampa a immagine. Il risultato visivo sembra identico; solo la struttura dei dati sottostante è diversa.
Prova PDF OCR
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
Come verificare se il tuo PDF ha un livello di testo
Apri il PDF e prova a fare clic e trascinare per selezionare una singola parola. Se riesci a evidenziare singole parole e il testo selezionato appare evidenziato in blu (o nel colore di selezione del visualizzatore), il PDF ha un vero livello di testo e dovrebbe essere ricercabile. Se facendo clic e trascinando si produce una casella di selezione rettangolare sopra l'immagine della pagina anziché evidenziare parole specifiche, il documento è basato su immagini.
Un secondo test: prova Ctrl+A per selezionare tutto. In un PDF basato su testo, il testo viene evidenziato in tutto il documento. In un PDF basato su immagini, nulla viene selezionato visibilmente oppure l'intera pagina viene selezionata come un singolo blocco di immagini.
La soluzione: eseguire l'OCR
L'OCR (riconoscimento ottico dei caratteri) legge l'immagine e converte ciò che vede in caratteri di testo, aggiungendo un livello di testo al PDF. Dopo l'OCR, il documento è ricercabile: Ctrl+F trova le parole, il testo può essere selezionato e copiato e gli screen reader possono interpretare il contenuto.
Lo strumento OCR PDF di WukongPDF gestisce questa operazione nel browser. Carica il PDF basato su immagini, esegui l'OCR e scarica la versione ricercabile. L'aspetto visivo del documento non cambia (le pagine sembrano identiche) ma i dati sottostanti ora includono un livello di testo che gli strumenti di ricerca e selezione possono utilizzare.
La precisione dell'OCR dipende dalla qualità della scansione originale. Testo nero pulito e ad alto contrasto su carta bianca con OCR da oltre 200 DPI con una precisione del 98-99%. Inchiostro sbiadito, scansioni a bassa risoluzione, caratteri insoliti o scrittura a mano producono più errori. Per la maggior parte dei documenti aziendali digitati, i risultati dell'OCR sono sufficientemente chiari da poter essere utilizzati immediatamente.
Quando la ricerca non trova nulla nonostante il testo esistente
Una situazione meno comune: il PDF ha un vero e proprio livello di testo, la selezione del testo funziona, ma la funzione di ricerca continua a non restituire risultati. Questo di solito significa che l'indice di ricerca del visualizzatore PDF non è stato ancora creato. Alcuni visualizzatori creano l'indice in background dopo l'apertura: attendi qualche secondo e riprova. Se il problema persiste, prova una query di ricerca diversa utilizzando termini più semplici oppure apri il file in un visualizzatore diverso.
Un'altra causa: il livello di testo esiste ma contiene caratteri confusi a causa di problemi di codifica dei caratteri. Se provi a copiare una frase e incollarla altrove e appare come simboli casuali, la codifica del testo viene interrotta. L'OCR risolve anche questo: ricostruisce il livello di testo da zero leggendo il contenuto visivo, sostituendo la codifica interrotta con il testo corretto.
Creare il futuro PDF sempre ricercabili
Per i documenti scansionati, l'esecuzione dell'OCR immediatamente dopo la scansione significa che ogni PDF scansionato è ricercabile dal momento in cui viene archiviato. Alcuni software per scanner hanno l'OCR integrato e lo applicano automaticamente: abilita questa impostazione se è disponibile. Per gli scanner senza OCR integrato, un rapido passaggio OCR post-scansione prima dell'archiviazione aggiunge secondi per documento e fa risparmiare tempo significativo quando è necessario trovare qualcosa settimane o mesi dopo.
Per i documenti creati digitalmente, assicurati di utilizzare un'esportazione corretta anziché la stampa su immagine. L'esportazione diretta da Word, Google Docs o qualsiasi applicazione professionale preserva automaticamente il livello di testo. Il problema della ricercabilità appare solo quando il processo di esportazione rasterizza il contenuto, cosa che di solito accade con la stampa suPDF utilizzando determinati driver o con opzioni di esportazione che appiattiscono esplicitamente il documento.
Prova PDF OCR
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
