Was ist OCR und wie funktioniert es mit PDFs?

OCR steht für Optical Character Recognition. Dabei handelt es sich um die Technologie, die Text aus Bildern liest – einschließlich gescannter Dokumente, Fotos von Seiten und Nur-Bild-PDFs – und das Gesehene in tatsächliche Textdaten umwandelt, die Computer verarbeiten können. Wenn Sie jemals ein Dokument gescannt haben und sich gefragt haben, warum Sie den Text nicht durchsuchen oder kopieren können, ist OCR die Lösung.

What Is OCR and How Does It Work With PDFs?

Das Problem, das OCR löst

Wenn Sie ein Dokument scannen, erfasst der Scanner ein Foto der Seite. Für einen Computer besteht dieses Foto nur aus Pixeln – farbigen Punkten, die in einem Raster angeordnet sind. Die Wörter, die Sie im Bild sehen, existieren aus der Sicht des Computers nicht als Text. Es kann sie nicht durchsuchen, kopieren, übersetzen oder vorlesen.

OCR schließt diese Lücke. Es analysiert die Pixelmuster im Bild, identifiziert Formen, die Buchstaben und Zahlen entsprechen, und wandelt diese Formen in tatsächliche Textzeichen um. Nach der OCR PDF-Verarbeitung besteht das Dokument aus zwei Ebenen: dem Originalbild (das immer noch genau gleich aussieht) und einer verborgenen Textebene, die der Computer lesen, durchsuchen und verarbeiten kann.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

Wie OCR tatsächlich funktioniert

Moderne OCR-Systeme nutzen maschinelle Lernmodelle, die auf Millionen von Dokumentenbildern trainiert wurden. Bei der Verarbeitung einer Seite durchläuft das System mehrere Phasen:

Bildvorverarbeitung: Das Bild wird bereinigt – begradigt, wenn es schief ist, der Kontrast wird verbessert, das Rauschen wird reduziert. Ein saubereres Bild führt zu einer genaueren Erkennung.
Layout-Analyse: Das System identifiziert die Struktur der Seite – wo Textblöcke sind, wo Bilder sind, die Lesereihenfolge, Spaltengrenzen, Tabellenzellen.
Zeichenerkennung: Das Modell analysiert jede Zeichenform und weist den wahrscheinlichsten Buchstaben, die wahrscheinlichste Zahl oder das wahrscheinlichste Symbol zu. Es berücksichtigt den Kontext – "das" ist eher "der" – um die Genauigkeit zu verbessern.
Erstellung einer Textebene: Die erkannten Zeichen werden zu Wörtern und Sätzen zusammengesetzt, so positioniert, dass sie am Originalbild ausgerichtet sind, und als durchsuchbare Textebene in das PDF eingebettet.

Was beeinflusst die OCR-Genauigkeit

Die OCR-Genauigkeit variiert erheblich je nach Qualität des Quellbilds und des erkannten Inhalts:

Scanauflösung: höhere DPI sorgen für klarere Zeichenkanten und eine bessere Erkennung. 300 DPI ist das empfohlene Minimum für zuverlässige OCR. Bilder unter 150 DPI verursachen oft erhebliche Fehler.
Schrifttyp: Standarddruckschriften in gängigen Schriftarten (Times, Arial, Helvetica) werden mit hoher Genauigkeit erkannt. Dekorative Schriftarten, ungewöhnliche Schriftarten und sehr kleiner Text führen zu mehr Fehlern.
Dokumentzustand: Vergilbtes Papier, verblassende Tinte, Flecken, verzerrtes Scannen und Schatten beeinträchtigen die Erkennungsqualität. Ein sauberer, gerader und kontrastreicher Scan liefert die besten Ergebnisse.
Sprache: Gemeinsame Sprachen (Englisch, Spanisch, Französisch, Deutsch, Chinesisch, Japanisch) verfügen über umfangreiche Trainingsdaten und eine hohe Genauigkeit. Weniger verbreitete Sprachen und Skripte können mehr Fehler aufweisen.
Handschrift: OCR auf gedrucktem Text ist sehr genau. Die Handschrifterkennung ist ein anderes und schwierigeres Problem – die Genauigkeit variiert erheblich je nach Handschriftstil und dem verwendeten spezifischen Modell.

Wie das Ergebnis aussieht

Nach der OCR sieht das PDF genauso aus wie zuvor – das ursprüngliche Scanbild ist unverändert. Der Unterschied ist für das Auge unsichtbar, aber in der Funktion von Bedeutung. Das Dokument verfügt nun über eine ausgeblendete Textebene, die am Bild ausgerichtet ist. Wenn Sie nach einem Wort suchen, findet der Betrachter es in der Textebene und hebt es im Bild hervor. Wenn Sie Text auswählen und kopieren, kopieren Sie ihn aus der Textebene. Wenn ein Screenreader Inhalte ankündigt, liest er die Textebene vor.

Die Bildebene und die Textebene sind getrennt – OCR verändert den Originalscan in keiner Weise. Wenn bei der OCR Fehler aufgetreten sind, zeigt das Bild immer noch den korrekten Originaltext an. Nur die verborgene Textebene enthält den Fehler.

So wenden Sie OCR auf ein PDF an

Das OCR PDF-Tool von WukongPDF bei www.wukongpdf.com erledigt dies, ohne dass Desktop-Software erforderlich ist: Laden Sie das gescannte PDF hoch, wählen Sie die Dokumentsprache für eine bessere Genauigkeit aus, verarbeiten Sie es und laden Sie das durchsuchbare Ergebnis herunter. Der Vorgang dauert bei einem Standarddokument normalerweise 10 bis 30 Sekunden.

Adobe Acrobat Pro verfügt über eine integrierte OCR-Funktion (Extras > Scans verbessern > Text erkennen) mit zusätzlichen Optionen zur Steuerung der Erkennungsqualität und zum Umgang mit mehrseitigen Dokumenten. Für Unternehmen, die große Mengen gescannter Dokumente verarbeiten, verarbeitet die Batch-OCR-Funktion von Acrobat ganze Dateiordner automatisch.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →