4 motivi per cui il tuo PDF scansionato non è ricercabile (e come risolverlo)

Esegui la scansione di un documento, lo apri in un visualizzatore PDF e provi a cercare una parola: niente. Oppure provi a selezionare una riga di testo e il cursore la salta sopra. Il file sembra un PDF, ma si comporta come una foto. Questa è una delle frustrazioni più comuni legate ai documenti scansionati e ci sono ragioni specifiche per cui accade. Eccone quattro, insieme a cosa puoi fare per risolverli.

4 Reasons Your Scanned PDF Is Not Searchable (And How to Fix It)

1. Lo scanner l'ha salvato come immagine, non come testo PDF

Questa è la causa più comune. Quando uno scanner acquisisce un documento fisico, scatta una fotografia della pagina. Se il software di scansione non applica l'OCR (riconoscimento ottico dei caratteri) al momento del salvataggio, avvolge semplicemente la foto in un contenitore PDF. Il risultato assomiglia esattamente a un normale PDF ma non contiene testo vero e proprio, solo pixel disposti in modo da sembrare lettere.

Puoi confermarlo premendo Ctrl+A (o Cmd+A su Mac) nel visualizzatore PDF. Se non viene selezionato nulla o l'intera pagina viene selezionata come un singolo blocco immagine, hai a che fare con un PDF di sole immagini.

La soluzione: esegui il PDF tramite uno strumento OCR PDF. L'OCR legge l'immagine, riconosce i caratteri e incorpora testo reale e ricercabile nel file. Lo strumento OCR di WukongPDF su www.wukongpdf.com fa questo: carica il PDF scansionato, lascia che il processo OCR venga eseguito e scarica una versione in cui il testo è completamente ricercabile e selezionabile.

Prova Ocr

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →

2. La qualità della scansione è troppo bassa perché l'OCR funzioni correttamente

L'OCR non è magico: funziona analizzando i modelli di pixel e abbinandoli a forme di caratteri conosciute. Se la scansione è sfocata, distorta, troppo scura o acquisita con una risoluzione molto bassa, il motore OCR fatica a distinguere accuratamente le lettere. Il risultato è un testo confuso, caratteri mancanti o un file che non è ancora ricercabile correttamente perché il testo riconosciuto non corrisponde al contenuto della pagina.

La risoluzione minima per un OCR affidabile è generalmente 300 DPI. Al di sotto di questo valore, la precisione diminuisce notevolmente. Anche le pagine inclinate, ovvero quelle in cui il documento è stato posizionato con una leggera angolazione nello scanner, causano problemi, poiché i motori OCR si aspettano righe di testo orizzontali.

La soluzione: se puoi ripetere la scansione, fallo a 300 DPI o superiore con il documento posizionato piatto e dritto. Se la nuova scansione non è un'opzione, alcuni strumenti OCR includono la preelaborazione delle immagini che può raddrizzare e migliorare la scansione prima del riconoscimento: cerca questa opzione prima di rinunciare a una scansione di scarsa qualità.

3. Il documento è in una lingua che il motore OCR non supporta

I motori OCR vengono addestrati su lingue e set di caratteri specifici. Un motore ottimizzato per le lingue con caratteri latini (inglese, francese, spagnolo, tedesco) avrà difficoltà con l'arabo, il cinese, il giapponese, il coreano o le lingue con caratteri specializzati. Anche all'interno delle scritture latine, i documenti con un uso massiccio di caratteri speciali, segni diacritici o caratteri insoliti possono causare problemi di riconoscimento.

La soluzione: utilizza uno strumento OCR che supporti esplicitamente la lingua del tuo documento. Gli strumenti OCR PDF più moderni elencano le lingue supportate: controlla prima dell'elaborazione. Se la precisione è ancora scarsa dopo aver utilizzato l'impostazione della lingua corretta, è probabile che la qualità della scansione sia il fattore limitante.

4. Il PDF presenta impostazioni di sicurezza che bloccano l'estrazione del testo

Alcuni PDF sono deliberatamente configurati per impedire la copia o l'estrazione del testo. Ciò avviene tramite le impostazioni delle autorizzazioni PDF: il documento potrebbe aprirsi correttamente e apparire del tutto normale, ma lo strumento di selezione del testo è disabilitato e la ricerca non restituisce risultati anche se tecnicamente il testo è lì.

Questo è meno comune con i documenti scansionati e più comune con i PDF che sono stati intenzionalmente bloccati dall'autore: alcuni documenti legali, moduli protetti o file di organizzazioni con rigide politiche di controllo dei documenti.

Puoi verificare se questo è il problema accedendo alle proprietà del documento nel visualizzatore PDF (solitamente in File > Proprietà > Sicurezza) e verificando quali autorizzazioni sono abilitate. Se la copia dei contenuti è elencata come non consentita, questa è la tua risposta.

La maggior parte dei PDF scansionati è una soluzione in un solo passaggio

Nella maggior parte dei casi, a un PDF scansionato non ricercabile è sufficiente applicare l'OCR. Il problema della qualità della scansione è la seconda causa più comune e spesso è anche risolvibile. Esegui il tuo file tramite lo strumento OCR PDF di WukongPDF su www.wukongpdf.com: è il modo più veloce per passare da un PDF di immagine non ricercabile a un documento in cui puoi effettivamente trovare ciò che stai cercando.

Prova Ocr

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →