Una lettera di dieci pagine digitata in Word ed esportata in PDF potrebbe essere di 200 KB. Le stesse dieci pagine scansionate e salvate come PDF potrebbero essere 30 MB, ovvero 150 volte più grandi. Il contenuto è identico. La differenza nella dimensione del file è enorme. Questo accade costantemente quando le persone scansionano documenti e poi si chiedono perché non possono inviare il risultato via email. La spiegazione è semplice una volta compreso come ciascun tipo di PDF memorizza il proprio contenuto.

Dati di testo e dati di immagine: una differenza di dimensioni fondamentale
Un PDF digitale memorizza il testo come dati di carattere. La lettera "A" in un PDF viene memorizzato come riferimento al carattere "A" in un carattere specifico: pochi byte di informazioni che dicono allo spettatore cosa disegnare e dove. Un'intera pagina di testo potrebbe occupare 5-10 KB perché ogni carattere è solo un piccolo riferimento, non un'immagine.
Un Scanned PDF memorizza ogni pagina come una fotografia. Quella stessa pagina di testo, fotografata a 300 DPI a colori, è una griglia di circa 2.500 × 3.500 pixel: quasi 9 milioni di singoli punti colorati, ciascuno dei quali richiede dati per descriverne il colore esatto. Anche dopo la compressione, una singola pagina di testo scansionato occupa in genere 1-5 MB. Dieci pagine significano 10-50 MB.
Prova a comprimere PDF
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
I calcoli dietro la differenza di dimensioni
Una pagina A4 scansionata a 300 DPI produce un'immagine di 2.480 × 3.508 pixel. Sono circa 8,7 milioni di pixel. In quadricromia (RGB), ogni pixel richiede 3 byte di dati, uno ciascuno per i valori rosso, verde e blu. Non compresso, sono circa 26 MB per pagina.
La compressione JPEG riduce drasticamente questo valore: una tipica pagina scansionata si comprime a 1-3 MB. Ma anche compresso, è un ordine di grandezza maggiore dei pochi KB necessari per memorizzare lo stesso contenuto dei caratteri di testo effettivi. Il contenuto è lo stesso; il metodo di archiviazione è completamente diverso.
Colore, scala di grigi e bianco e nero
Non tutti i PDF scansionati hanno le stesse dimensioni. La modalità colore scelta al momento della scansione ha un impatto notevole:
- Colore (RGB): 3 byte per pixel. I file più grandi. Necessario per documenti con contenuto a colori; dispendioso per il testo nero su carta bianca.
- Scala di grigi: 1 byte per pixel. I file hanno circa 1/3 delle dimensioni delle scansioni a colori. Ideale per documenti digitati, moduli e qualsiasi cosa priva di colore significativo.
- Bianco e nero (1 bit): ogni pixel è bianco o nero: 1 bit di dati. I file sono estremamente piccoli. Ideale per documenti di testo stampati in cui non sono necessarie sfumature di grigio, ma è duro con qualsiasi cosa con sfumature o fotografie.
Per la maggior parte della scansione di documenti (lettere, contratti, moduli, fatture), la scala di grigi a 150-200 DPI produce file leggibili, compatti e adatti per l'e-mail e l'invio digitale.
Cosa fare con le scansioni di grandi dimensioni PDFs
Se la scansione è già stata eseguita e il file è troppo grande, la compressione è la soluzione più rapida. PDF__ La compressione riduce significativamente i PDF scansionati, spesso del 60-80%, perché i dati immagine in ogni pagina presentano una sostanziale ridondanza che la compressione può eliminare. WukongPDF presso www.wukongpdf.com si occupa di questo: carica il PDF scansionato, applica una compressione media o alta, scarica un file abbastanza piccolo da poterlo inviare via email.
Se puoi ripetere la scansione, regola prima le impostazioni: passa dal colore alla scala di grigi, riduci i DPI da 300 a 150 o 200 e abilita qualsiasi compressione PDF incorporata nel software dello scanner. Queste modifiche all'origine producono un file molto più piccolo senza i compromessi di qualità di una compressione post-scansione aggressiva.
L'approccio OCR: più piccolo e più utile
L'esecuzione di un PDF scansionato tramite OCR non solo lo rende ricercabile, ma può anche ridurre le dimensioni del file. Alcuni strumenti OCR sostituiscono le immagini delle pagine ad alta risoluzione con versioni a risoluzione inferiore dopo l'estrazione del testo, poiché il livello del testo gestisce la leggibilità e l'immagine deve solo fornire il contesto visivo. Il risultato è un file più piccolo che è anche ricercabile e copiabile: un risultato migliore rispetto alla semplice compressione della scansione della sola immagine.
Prova a comprimere PDF
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
