Come rendere un PDF ricercabile

Un PDF ricercabile è quello in cui il testo viene archiviato come caratteri effettivi nel file anziché come immagine. Quando premi Ctrl+F e digiti una parola, lo spettatore può trovarla. Quando selezioni il testo e lo copi, vengono copiati i caratteri reali. Per i PDF creati digitalmente questo è automatico. Per i PDF scansionati, è necessario l'OCR per aggiungere il livello di testo.

Come sapere se un PDF è già ricercabile

Apri il PDF e prova a selezionare una parola facendo clic e trascinando. Se le singole parole vengono evidenziate e puoi copiarle, il PDF ha già un livello di testo ed è ricercabile. Se facendo clic si disegna una selezione rettangolare sull'intera area anziché selezionare parole specifiche, la pagina viene memorizzata come immagine senza livello di testo. È allora che hai bisogno dell'OCR.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →

Esecuzione dell'OCR per aggiungere un livello di testo

Lo strumento OCR PDF di WukongPDF elabora i PDF scansionati nel browser e restituisce una versione in cui il testo viene riconosciuto e incorporato accanto all'immagine scansionata originale. La pagina sembra identica (stesso aspetto visivo, stessa qualità di scansione), ma Ctrl+F ora trova che le parole e il testo possono essere selezionati e copiati. Carica il PDF scansionato, esegui l'OCR e scarica la versione ricercabile.

Adobe Acrobat Pro dispone anche di un robusto motore OCR in Strumenti → Scansione e scansione. OCR → Riconosci testo. La sua precisione su scansioni difficili (testo sbiadito, caratteri insoliti, script non latini) è generalmente migliore rispetto agli strumenti del browser, anche se per il testo stampato standard la differenza è piccola. Se stai elaborando grandi volumi di documenti in cui la precisione è importante, l'OCR di Acrobat vale l'investimento.

Precisione OCR e supporto linguistico

La precisione dell'OCR dipende fortemente dalla qualità della scansione. Una scansione pulita e ad alto contrasto di un documento stampato professionalmente a 200 DPI o superiore viene in genere convertita con una precisione dei caratteri del 98-99%, sostanzialmente priva di errori per scopi pratici. Una fotocopia sbiadita, una scansione eseguita da un'angolazione o un documento con annotazioni scritte a mano presenteranno più errori che richiedono una correzione manuale.

La maggior parte degli strumenti OCR rileva automaticamente la lingua del documento e utilizza modelli specifici della lingua per migliorare la precisione. Se un documento riconosce costantemente erroneamente determinati caratteri, controlla se la lingua viene rilevata correttamente: forzare la lingua corretta nelle impostazioni OCR spesso fa una notevole differenza, soprattutto per i documenti con caratteri accentati o script non latini.

Rendere un PDF ricercabile per l'archiviazione a lungo termine

Le organizzazioni che digitalizzano archivi cartacei spesso fanno della ricercabilità l'obiettivo primario: la capacità di trovare un documento o una clausola specifica in migliaia di file anni dopo. Per questo caso d'uso, l'output OCR deve essere salvato in un formato progettato per la conservazione a lungo termine. PDF/A-3 supporta livelli di testo incorporati accanto all'immagine della pagina ed è lo standard di archiviazione progettato specificamente per archivi di documenti ricercabili. L'esecuzione dell'OCR e la successiva conversione in PDF La compressione con impostazioni di archiviazione garantisce sia la ricercabilità che la stabilità del formato a lungo termine.

Anche l'OCR imperfetto è significativamente migliore dell'assenza di OCR per scopi di archiviazione. Un documento con una precisione dei caratteri del 95% è ancora ricercabile: una ricerca per "fattura" troverà la maggior parte delle fatture anche se alcuni caratteri di alcune parole sono stati letti male. L'OCR perfetto è l'ideale; l'OCR funzionale è ancora molto più utile di una scansione senza alcun livello di testo.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →