Ist ein PDF dasselbe wie ein gescanntes Dokument?

Menschen verwenden oft „PDF“; und „gescanntes Dokument“ austauschbar – insbesondere in Büroumgebungen, in denen jemand sagt: „Scannen Sie es einfach und senden Sie ein PDF.“ Aber ein PDF und ein gescanntes Dokument sind nicht dasselbe, und die Vermischung der beiden führt zu echter Verwirrung. Ein Scan kann als PDF gespeichert werden, aber nicht alle PDFs sind Scans, und der Unterschied hat erhebliche praktische Konsequenzen.

Is a PDF the Same as a Scanned Document?

Was ein PDF eigentlich ist

PDF steht für Portable Document Format. Es handelt sich um ein Dateiformat – einen Container, der viele verschiedene Arten von Inhalten enthalten kann: echten Text, Vektorgrafiken, Bilder, Hyperlinks, Formularfelder, Lesezeichen und mehr. Das PDF-Format wurde entwickelt, um Dokumente auf jedem Gerät oder Betriebssystem konsistent darzustellen.

Ein aus einem Word-Dokument erstelltes PDF enthält echten Text – Zeichen, die der Computer lesen, durchsuchen, kopieren und verarbeiten kann. Ein aus einer Excel-Tabelle erstelltes PDF enthält echte Daten. Ein von einem Browser generiertes PDF enthält echten Webseiteninhalt. In jedem Fall handelt es sich bei dem PDF um ein strukturiertes Dokument mit echtem Inhalt und nicht um ein Foto.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

Was ein gescanntes Dokument ist

Ein gescanntes Dokument ist ein Foto einer physischen Seite. Ein Scanner erfasst das vom Papier reflektierte Licht und wandelt es in ein Pixelgitter – ein Rasterbild – um. Die resultierende Datei ist ein Bild des Dokuments, nicht das Dokument selbst. Der im Scan sichtbare Text besteht nur aus farbigen Pixeln, die wie Buchstaben angeordnet sind.

Wenn dieser Scan als PDF gespeichert wird, erhalten Sie eine PDF-Datei – allerdings eine, deren Inhalt ein Bild und kein Text ist. Der PDF-Container ist echt, aber was sich darin befindet, ist ein Foto. Dies wird als Nur-Bild-PDF oder Scanned PDF bezeichnet und verhält sich ganz anders als ein PDF mit tatsächlichem Textinhalt.

Warum die Verwirrung besteht

Die Verwirrung entsteht durch die Tatsache, dass gescannte Dokumente normalerweise als PDFs gespeichert werden. Scanner und Scanner-Apps geben normalerweise standardmäßig PDF-Dateien aus. Wenn also jemand ein „PDF“ erhält, wird Möglicherweise haben sie entweder ein digitales PDF mit echtem Text oder ein gescanntes PDF mit Bildinhalten erhalten – und beide sehen auf dem Bildschirm identisch aus.

Der Unterschied wird erst deutlich, wenn Sie versuchen, etwas mit der Datei zu tun. Versuchen Sie, nach einem Wort zu suchen. Versuchen Sie, einen Satz zu kopieren. Versuchen Sie, einen Screenreader zu verwenden. Ein digitales PDF erledigt all dies. Ein gescanntes PDF verarbeitet keines davon – es sei denn, OCR wurde angewendet, um eine Textebene hinzuzufügen.

Die praktischen Unterschiede, die wichtig sind

Durchsuchbarkeit: digitale PDFs sind vollständig durchsuchbar. Gescannte PDFs geben keine Ergebnisse zurück, es sei denn, OCR wurde angewendet.
Dateigröße: digital PDFs sind kompakt – ein 10-seitiges Textdokument ist normalerweise weniger als 500 KB groß. Gescannte PDFs speichern Seitenbilder und sind normalerweise 10-100x größer.
Kopieren und Einfügen: Sie können Text aus einem digitalen PDF auswählen und kopieren. Das geht nicht aus einem gescannten PDF – der Versuch, Text auszuwählen, wählt das gesamte Seitenbild aus.
Bearbeitung: digitale PDFs können direkt mit einem PDF-Editor bearbeitet werden. Bei gescannten PDFs kann nur neuer Inhalt darüber platziert werden – der vorhandene Bildinhalt kann nicht geändert werden.
Barrierefreiheit: Screenreader funktionieren mit digitalen PDFs. Ohne eine OCR-Textebene sind gescannte PDFs für Hilfstechnologien völlig unzugänglich.

So erkennen Sie, welchen Typ Sie haben

Öffnen Sie das PDF und versuchen Sie, auf ein Wort zu klicken. In einem digitalen PDF wird der Cursor zum Textcursor und Sie können einzelne Wörter auswählen. In einem gescannten PDF passiert nichts oder die gesamte Seite wird als ein Block ausgewählt.

Drücken Sie Strg+F und suchen Sie nach einem Wort, das Sie auf der Seite sehen können. Wenn es gefunden wird, enthält das PDF echten Text. Wenn die Suche nichts zurückgibt, handelt es sich nur um Bilder. Ein dritter Indikator ist die Zoomqualität – beim Zoomen in ein digitales PDF bleibt der Text bei jeder Vergrößerung scharf, während beim Zoomen in ein gescanntes PDF beim Vergrößern des Bildes Pixelbildung sichtbar wird.

Ein gescanntes PDF so verhalten, dass es sich wie ein digitales verhält

OCR – Optical Character Recognition – liest die Bilder in einem gescannten PDF, erkennt die Textzeichen und fügt der Datei eine echte Textebene hinzu. Nach der OCR wird das Dokument durchsuchbar, kopierbar und zugänglich. Das OCR-Tool von WukongPDF bei www.wukongpdf.com erledigt dies ohne Desktop-Software – laden Sie das gescannte PDF hoch, führen Sie OCR aus und laden Sie eine Version herunter, die jetzt echten Text enthält. Es wird zwar kein Scanned PDF in ein natives digitales Dokument umwandeln, aber es schließt den größten Teil der praktischen Lücke.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →