Un PDF ricercabile è quello in cui il testo viene archiviato come caratteri effettivi nel file anziché come immagine. Quando premi Ctrl+F e digiti una parola, lo spettatore può trovarla. Quando selezioni il testo e lo copi, vengono copiati i caratteri reali. Per i PDF creati digitalmente questo è automatico. Per i PDF scansionati, è necessario l'OCR per aggiungere il livello di testo.

Come sapere se un PDF è già ricercabile
Apri il PDF e prova a selezionare una parola facendo clic e trascinando. Se le singole parole vengono evidenziate e puoi copiarle, il PDF ha già un livello di testo ed è ricercabile. Se facendo clic si disegna una selezione rettangolare sull'intera area anziché selezionare parole specifiche, la pagina viene memorizzata come immagine senza livello di testo. È allora che hai bisogno dell'OCR.
Prova PDF OCR
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
Esecuzione dell'OCR per aggiungere un livello di testo
Lo strumento OCR PDF di WukongPDF elabora i PDF scansionati nel browser e restituisce una versione in cui il testo viene riconosciuto e incorporato accanto all'immagine scansionata originale. La pagina sembra identica (stesso aspetto visivo, stessa qualità di scansione), ma Ctrl+F ora trova che le parole e il testo possono essere selezionati e copiati. Carica il PDF scansionato, esegui l'OCR e scarica la versione ricercabile.
Adobe Acrobat Pro dispone anche di un robusto motore OCR in Strumenti → Scansione e scansione. OCR → Riconosci testo. La sua precisione su scansioni difficili (testo sbiadito, caratteri insoliti, script non latini) è generalmente migliore rispetto agli strumenti del browser, anche se per il testo stampato standard la differenza è piccola. Se stai elaborando grandi volumi di documenti in cui la precisione è importante, l'OCR di Acrobat vale l'investimento.
Precisione OCR e supporto linguistico
La precisione dell'OCR dipende fortemente dalla qualità della scansione. Una scansione pulita e ad alto contrasto di un documento stampato professionalmente a 200 DPI o superiore viene in genere convertita con una precisione dei caratteri del 98-99%, sostanzialmente priva di errori per scopi pratici. Una fotocopia sbiadita, una scansione eseguita da un'angolazione o un documento con annotazioni scritte a mano presenteranno più errori che richiedono una correzione manuale.
La maggior parte degli strumenti OCR rileva automaticamente la lingua del documento e utilizza modelli specifici della lingua per migliorare la precisione. Se un documento riconosce costantemente erroneamente determinati caratteri, controlla se la lingua viene rilevata correttamente: forzare la lingua corretta nelle impostazioni OCR spesso fa una notevole differenza, soprattutto per i documenti con caratteri accentati o script non latini.
Rendere un PDF ricercabile per l'archiviazione a lungo termine
Le organizzazioni che digitalizzano archivi cartacei spesso fanno della ricercabilità l'obiettivo primario: la capacità di trovare un documento o una clausola specifica in migliaia di file anni dopo. Per questo caso d'uso, l'output OCR deve essere salvato in un formato progettato per la conservazione a lungo termine. PDF/A-3 supporta livelli di testo incorporati accanto all'immagine della pagina ed è lo standard di archiviazione progettato specificamente per archivi di documenti ricercabili. L'esecuzione dell'OCR e la successiva conversione in PDF La compressione con impostazioni di archiviazione garantisce sia la ricercabilità che la stabilità del formato a lungo termine.
Anche l'OCR imperfetto è significativamente migliore dell'assenza di OCR per scopi di archiviazione. Un documento con una precisione dei caratteri del 95% è ancora ricercabile: una ricerca per "fattura" troverà la maggior parte delle fatture anche se alcuni caratteri di alcune parole sono stati letti male. L'OCR perfetto è l'ideale; l'OCR funzionale è ancora molto più utile di una scansione senza alcun livello di testo.
Prova PDF OCR
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
