Een brief van tien pagina's, getypt in Word en geëxporteerd naar PDF, kan 200 KB groot zijn. Dezelfde tien pagina's die zijn gescand en opgeslagen als PDF kunnen 30 MB groot zijn: 150 keer groter. De inhoud is identiek. Het verschil in bestandsgrootte is enorm. Dit komt voortdurend naar voren wanneer mensen documenten scannen en zich vervolgens afvragen waarom ze het resultaat niet kunnen e-mailen. De uitleg is eenvoudig als u eenmaal begrijpt hoe elk type PDF de inhoud ervan opslaat.

Tekstgegevens versus afbeeldingsgegevens: een fundamenteel verschil in grootte
Een digitale PDF slaat tekst op als tekengegevens. De letter "A" in een PDF wordt opgeslagen als verwijzing naar het teken "A" in een specifiek lettertype: een paar bytes aan informatie die de kijker vertellen wat hij moet tekenen en waar. Een hele tekstpagina kan 5-10 KB in beslag nemen, omdat elk teken slechts een kleine referentie is en geen afbeelding.
Een Gescande PDF slaat elke pagina op als een foto. Diezelfde tekstpagina, gefotografeerd met 300 DPI in kleur, is een raster van grofweg 2.500 x 3.500 pixels – bijna 9 miljoen individueel gekleurde stippen, die elk gegevens nodig hebben om de exacte kleur te beschrijven. Zelfs na compressie is een enkele pagina met gescande tekst doorgaans 1-5 MB groot. Tien pagina's betekent 10-50 MB.
Probeer PDF te comprimeren
Geen installatie nodig. Werkt rechtstreeks in uw browser.
De wiskunde achter het grootteverschil
Een A4-pagina gescand met 300 DPI produceert een afbeelding van 2.480 × 3.508 pixels. Dat zijn ongeveer 8,7 miljoen pixels. In volledige kleur (RGB) heeft elke pixel 3 bytes aan gegevens nodig: één voor rode, groene en blauwe waarden. Ongecomprimeerd is dat ongeveer 26 MB per pagina.
JPEG-compressie vermindert dit dramatisch: een typische gescande pagina wordt gecomprimeerd tot 1-3 MB. Maar zelfs gecomprimeerd is het een orde van grootte groter dan de paar KB die nodig is om dezelfde inhoud op te slaan als daadwerkelijke teksttekens. De inhoud is hetzelfde; de opslagmethode is compleet anders.
Kleur versus grijstinten versus zwart-wit
Niet alle gescande PDFs hebben hetzelfde formaat. De kleurmodus die tijdens het scannen wordt gekozen, heeft een grote impact:
- Kleur (RGB): 3 bytes per pixel. De grootste bestanden. Noodzakelijk voor documenten met kleurinhoud; verspillend voor zwarte tekst op wit papier.
- Grijswaarden: 1 byte per pixel. Bestanden zijn ongeveer 1/3 van de grootte van kleurenscans. Ideaal voor getypte documenten, formulieren en alles zonder betekenisvolle kleuren.
- Zwart en wit (1-bit): elke pixel is zwart of wit: 1 bit aan gegevens. Bestanden zijn extreem klein. Het beste voor afgedrukte tekstdocumenten waarbij geen grijstinten nodig zijn, maar hard voor alles met kleurverlopen of foto's.
Voor het scannen van de meeste documenten (brieven, contracten, formulieren, facturen) produceert grijswaarden bij 150-200 DPI bestanden die leesbaar, compact en geschikt zijn voor e-mail en digitale indiening.
Wat te doen met grote gescande PDFs
Als de scan al is voltooid en het bestand te groot is, is compressie de snelste oplossing. PDF Compressie vermindert de gescande PDFs aanzienlijk (vaak met 60-80%) omdat de afbeeldingsgegevens op elke pagina aanzienlijke redundantie bevatten die door compressie kan worden geëlimineerd. WukongPDF op www.wukongpdf.com regelt dit: upload de gescande PDF, pas medium of hoge compressie toe, download een bestand dat klein genoeg is om te e-mailen.
Als u opnieuw kunt scannen, past u eerst de instellingen aan: schakel over van kleur naar grijswaarden, verlaag DPI van 300 naar 150 of 200 en schakel eventuele ingebouwde PDF-compressie in de scannersoftware in. Deze veranderingen aan de bron produceren een veel kleiner bestand zonder de kwaliteitsproblemen van agressieve post-scancompressie.
De OCR-aanpak: kleiner en nuttiger
Het uitvoeren van een gescande PDF via OCR maakt het niet alleen doorzoekbaar; het kan ook de bestandsgrootte verkleinen. Sommige OCR-tools vervangen pagina-afbeeldingen met een hoge resolutie door versies met een lagere resolutie nadat de tekst is geëxtraheerd, omdat de tekstlaag voor de leesbaarheid zorgt en de afbeelding alleen visuele context hoeft te bieden. Het resultaat is een kleiner bestand dat ook doorzoekbaar en kopieerbaar is; een beter resultaat dan alleen het comprimeren van de scan met alleen afbeeldingen.
Probeer PDF te comprimeren
Geen installatie nodig. Werkt rechtstreeks in uw browser.
