Le persone usano spesso "PDF" e "documento scansionato" in modo intercambiabile, soprattutto in ufficio dove qualcuno dice "basta scansionarlo e inviare un PDF". Ma un PDF e un documento scansionato non sono la stessa cosa e la fusione dei due causa una vera confusione. Una scansione può essere salvata come PDF, ma non tutti i PDF sono scansioni e la differenza ha conseguenze pratiche significative.

Cos'è realmente un PDF
PDF sta per Portable Document Format. È un formato di file, un contenitore che può contenere molti tipi diversi di contenuto: testo reale, grafica vettoriale, immagini, collegamenti ipertestuali, campi modulo, segnalibri e altro ancora. Il formato PDF è stato progettato per rappresentare i documenti in modo coerente su qualsiasi dispositivo o sistema operativo.
Un PDF creato da un documento Word contiene testo vero e proprio, ovvero caratteri che il computer può leggere, cercare, copiare ed elaborare. Un PDF creato da un foglio di calcolo Excel contiene dati reali. Un PDF generato da un browser contiene il contenuto reale di una pagina web. In ogni caso, il PDF è un documento strutturato con contenuti autentici, non una fotografia.
Prova PDF OCR
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
Cos'è un documento scansionato
Un documento scansionato è una fotografia di una pagina fisica. Uno scanner cattura la luce riflessa dalla carta e la converte in una griglia di pixel: un'immagine raster. Il file risultante è un'immagine del documento, non il documento stesso. Qualsiasi testo visibile nella scansione esiste solo come pixel colorati disposti in modo da sembrare lettere.
Quando la scansione viene salvata come PDF, ottieni un file PDF, ma il cui contenuto è un'immagine, non testo. Il contenitore PDF è reale, ma quello che c'è dentro è una fotografia. Questo è chiamato PDF di sole immagini o Scansionato PDF e si comporta in modo molto diverso da un PDF con contenuto di testo effettivo.
Perché esiste la confusione
La confusione deriva dal fatto che i documenti scansionati vengono solitamente salvati come PDF. Gli scanner e le app per scanner in genere producono file .pdf per impostazione predefinita. Pertanto, quando qualcuno riceve un "PDF," potrebbero aver ricevuto un PDF digitale con testo reale o un PDF scansionato con contenuto immagine e i due sembrano identici sullo schermo.
La distinzione diventa evidente solo quando si tenta di fare qualcosa con il file. Prova a cercare una parola. Prova a copiare una frase. Prova a utilizzare uno screen reader. Un PDF digitale gestisce tutti questi. Un PDF scansionato non ne gestisce nessuno, a meno che non sia stato applicato l'OCR per aggiungere un livello di testo.
Le differenze pratiche che contano
- Ricercabilità: i digitali PDF sono completamente ricercabili. I PDF scansionati non restituiscono risultati a meno che non sia stato applicato l'OCR.
- Dimensioni file: digitale I PDF sono compatti: un documento di testo di 10 pagine è in genere inferiore a 500 KB. I PDF scansionati memorizzano le immagini delle pagine e in genere sono 10-100 volte più grandi.
- Copia e incolla: puoi selezionare e copiare testo da un PDF digitale. Non è possibile da un PDF scansionato: il tentativo di selezionare il testo seleziona l'intera immagine della pagina.
- Modifica: i digitali PDF possono avere il testo modificato direttamente con un PDF editor. I PDF scansionati possono avere solo nuovi contenuti posizionati in primo piano: il contenuto dell'immagine esistente non può essere modificato.
- Accessibilità: gli screen reader funzionano con PDF digitali. I PDF scansionati sono completamente inaccessibili alla tecnologia assistiva senza un livello di testo OCR.
Come capire quale tipo hai
Apri il PDF e prova a fare clic su una parola. In un PDF digitale, il cursore diventa un cursore di testo ed è possibile selezionare singole parole. In un PDF scansionato, non succede nulla oppure l'intera pagina viene selezionata come un blocco.
Premi Ctrl+F e cerca una parola che puoi vedere sulla pagina. Se viene trovato, il PDF contiene testo reale. Se la ricerca non restituisce nulla, è solo immagine. Un terzo indicatore è la qualità dello zoom: lo zoom in un PDF digitale mantiene il testo nitido a qualsiasi ingrandimento, mentre lo zoom in un PDF scansionato rivela la pixelizzazione man mano che si ingrandisce l'immagine.
Fare in modo che un PDF scansionato si comporti come se fosse digitale
OCR (riconoscimento ottico dei caratteri): legge le immagini in un PDF scansionato, riconosce i caratteri di testo e aggiunge un vero livello di testo al file. Dopo l'OCR, il documento diventa ricercabile, copiabile e accessibile. Lo strumento OCR di WukongPDF su www.wukongpdf.com fa tutto questo senza software desktop: carica il PDF scansionato, esegui l'OCR, scarica una versione che ora contiene testo reale. Non trasformerà un Scansionato PDF in un documento digitale nativo, ma colma la maggior parte del divario pratico.
Prova PDF OCR
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
