Warum gescannte PDFs so viel größer sind als digitale

Ein zehnseitiger Brief, der in Word eingegeben und nach PDF exportiert wird, könnte 200 KB groß sein. Dieselben zehn Seiten, die gescannt und als PDF gespeichert werden, könnten 30 MB groß sein – also 150-mal größer. Der Inhalt ist identisch. Der Dateigrößenunterschied ist enorm. Dies taucht ständig auf, wenn Leute Dokumente scannen und sich dann fragen, warum sie das Ergebnis nicht per E-Mail versenden können. Die Erklärung ist einfach, wenn Sie verstehen, wie jeder PDF-Typ seinen Inhalt speichert.

Why Scanned PDFs Are So Much Larger Than Digital Ones

Textdaten vs. Bilddaten: Ein grundlegender Größenunterschied

Ein digitales PDF speichert Text als Zeichendaten. Der Buchstabe „A“ in einem PDF wird als Referenz auf das Zeichen „A“ gespeichert. in einer bestimmten Schriftart – ein paar Bytes an Informationen, die dem Betrachter sagen, was er wo zeichnen soll. Eine ganze Textseite kann 5–10 KB belegen, da jedes Zeichen nur eine kleine Referenz und kein Bild ist.

Ein Scanned PDF speichert jede Seite als Foto. Dieselbe Textseite, fotografiert mit 300 DPI in Farbe, ist ein Raster von etwa 2.500 × 3.500 Pixeln – fast 9 Millionen einzelne Farbpunkte, von denen jeder Daten benötigt, um seine genaue Farbe zu beschreiben. Auch nach der Komprimierung ist eine einzelne Seite gescannten Textes typischerweise 1–5 MB groß. Zehn Seiten bedeuten 10-50 MB.

Probieren Sie Compress PDF aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

Die Mathematik hinter dem Größenunterschied

Eine mit 300 DPI gescannte A4-Seite erzeugt ein Bild mit 2.480 × 3.508 Pixeln. Das sind etwa 8,7 Millionen Pixel. In Vollfarbe (RGB) benötigt jedes Pixel 3 Bytes an Daten – jeweils eines für Rot-, Grün- und Blauwerte. Unkomprimiert sind das ungefähr 26 MB pro Seite.

Durch die JPEG-Komprimierung wird dies drastisch reduziert – eine typische gescannte Seite wird auf 1–3 MB komprimiert. Aber selbst komprimiert ist es um Größenordnungen größer als die wenigen KB, die zum Speichern des gleichen Inhalts wie tatsächliche Textzeichen erforderlich sind. Der Inhalt ist derselbe; Die Speichermethode ist völlig anders.

Farbe vs. Graustufen vs. Schwarzweiß

Nicht alle gescannten PDFs haben die gleiche Größe. Der beim Scannen gewählte Farbmodus hat einen großen Einfluss:

Farbe (RGB): 3 Bytes pro Pixel. Die größten Dateien. Notwendig für Dokumente mit Farbinhalten; verschwenderisch für schwarzen Text auf weißem Papier.
Grayscale: 1 Byte pro Pixel. Dateien sind etwa ein Drittel so groß wie Farbscans. Ideal für getippte Dokumente, Formulare und alles ohne aussagekräftige Farbe.
Schwarz und Weiß (1 Bit): jedes Pixel ist entweder schwarz oder weiß – 1 Bit Daten. Dateien sind extrem klein. Am besten für gedruckte Textdokumente geeignet, bei denen keine Grauschattierung erforderlich ist, aber für alles mit Farbverläufen oder Fotos hart ist.

Beim Scannen der meisten Dokumente – Briefe, Verträge, Formulare, Rechnungen – werden in Graustufen mit 150–200 DPI Dateien erstellt, die lesbar, kompakt und für die E-Mail- und digitale Übermittlung geeignet sind.

Was tun bei großen gescannten PDFs

Wenn der Scan bereits abgeschlossen ist und die Datei zu groß ist, ist die Komprimierung die schnellste Lösung. PDF-Komprimierung reduziert gescannte PDFs erheblich – oft um 60–80 %, da die Bilddaten auf jeder Seite erhebliche Redundanz aufweisen, die durch die Komprimierung beseitigt werden kann. WukongPDF bei www.wukongpdf.com übernimmt dies: Laden Sie das gescannte PDF hoch, wenden Sie eine mittlere oder hohe Komprimierung an, laden Sie eine Datei herunter, die klein genug ist, um sie per E-Mail zu verschicken.

Wenn Sie erneut scannen können, passen Sie zuerst die Einstellungen an: Wechseln Sie von Farbe zu Graustufen, reduzieren Sie die DPI von 300 auf 150 oder 200 und aktivieren Sie die integrierte PDF-Komprimierung in der Scannersoftware. Diese Änderungen an der Quelle führen zu einer viel kleineren Datei ohne die Qualitätseinbußen einer aggressiven Post-Scan-Komprimierung.

Der OCR-Ansatz: Kleiner und nützlicher

Das Ausführen einer gescannten PDF-Datei mittels OCR macht sie nicht nur durchsuchbar, sondern kann auch die Dateigröße reduzieren. Einige OCR-Tools ersetzen hochauflösende Seitenbilder nach dem Extrahieren des Textes durch Versionen mit niedrigerer Auflösung, da die Textebene für die Lesbarkeit zuständig ist und das Bild nur visuellen Kontext bereitstellen muss. Das Ergebnis ist eine kleinere Datei, die auch durchsuchbar und kopierbar ist – ein besseres Ergebnis als nur die Komprimierung des Nur-Bild-Scans.

Probieren Sie Compress PDF aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →