So machen Sie Text in einem gescannten PDF auswählbar

Ein gescanntes PDF zeigt Text, den Sie mit den Augen lesen, aber nicht anklicken, auswählen, kopieren oder durchsuchen können. Dies liegt daran, dass der "Text" ist eigentlich ein Foto – Pixel, die so angeordnet sind, dass sie wie Buchstaben aussehen. Um Text auswählbar zu machen, muss OCR ausgeführt werden, das das Bild liest und dem Dokument eine echte Textebene hinzufügt. Nach der OCR sieht das PDF identisch aus, aber der Text ist kopierbar, durchsuchbar und zugänglich.

How to Make Text Selectable in a Scanned PDF

Was OCR mit einem gescannten PDF macht

OCR (Optical Character Recognition) analysiert die Pixelmuster in jedem Seitenbild, identifiziert Formen, die Buchstaben und Zahlen entsprechen, und erstellt eine verborgene Textebene, die so positioniert ist, dass sie an den sichtbaren Zeichen ausgerichtet ist. Nach der OCR PDF-Verarbeitung besteht das Dokument aus zwei Ebenen: dem ursprünglichen Scanbild (unverändert, immer noch sichtbar) und einer Textebene darunter, die Betrachter bei der Auswahl oder Suche verwenden.

Das optische Erscheinungsbild des Dokuments ändert sich nicht – der Scan sieht vor und nach der OCR identisch aus. Was sich ändert, ist die Funktionalität des Dokuments: Text wird Zeichen für Zeichen auswählbar, die Suche mit Strg+F funktioniert, durch Kopieren und Einfügen wird echter Text statt gar nichts erzeugt, und Screenreader können den Inhalt laut vorlesen.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

Mit dem OCR-Tool von WukongPDF

WukongPDF bei www.wukongpdf.com übernimmt OCR im Browser ohne Softwareinstallation. Laden Sie das gescannte PDF hoch, wählen Sie die Dokumentsprache für eine bessere Erkennungsgenauigkeit aus, verarbeiten Sie es und laden Sie das durchsuchbare Ergebnis herunter. Die konvertierte Datei ist ein Standard-PDF mit einer Textebene – kompatibel mit jedem PDF-Viewer.

Testen Sie es nach dem Herunterladen sofort: Öffnen Sie das PDF, drücken Sie Strg+F und suchen Sie nach einem Wort, das Sie auf der ersten Seite sehen können. Wenn es es findet, hat die OCR funktioniert. Versuchen Sie, einen Satz auszuwählen und zu kopieren – der eingefügte Text sollte mit dem übereinstimmen, was Sie sehen. Wenn nichts gefunden wird oder der kopierte Text falsch aussieht, hatte die OCR Genauigkeitsprobleme, wahrscheinlich aufgrund der Scanqualität.

Adobe Acrobat's Enhance Scans

Adobe Acrobat Pro und Acrobat Standard enthalten eine spezielle OCR-Funktion namens „Scans verbessern“. Öffnen Sie das gescannte PDF, gehen Sie zu Extras > Scans verbessern > Text erkennen > In dieser Datei. Legen Sie die Dokumentsprache fest und klicken Sie auf Text erkennen. Acrobat verarbeitet die Seiten und fügt die Textebene hinzu. Bei mehrseitigen Dokumenten verarbeitet Acrobat alle Seiten in einem Vorgang.

Acrobat bietet außerdem die Funktion „Durchsuchbar machen“ an. Option, die sich geringfügig von der vollständigen OCR unterscheidet – sie fügt eine Textebene hinzu, ohne zu versuchen, die Dokumentstruktur zu rekonstruieren. Für die meisten Zwecke ist die Standardoption „Text erkennen“ vorzuziehen, da sie ein ordnungsgemäß strukturiertes Gescanntes PDF mit genauer Textpositionierung erzeugt.

Was beeinflusst die OCR-Genauigkeit

Die OCR-Genauigkeit hängt direkt von der Scanqualität ab. Das gleiche gut gescannte Dokument liefert nahezu perfekte Ergebnisse; Schlecht gescannte Dokumente führen zu Fehlern, die eine manuelle Korrektur erfordern.

Auflösung: 300 DPI ist das Minimum für zuverlässige OCR. Unter 200 DPI ist mit häufigen Fehlern zu rechnen, insbesondere bei kleinem Text. 600 DPI verbessert die Genauigkeit, erzeugt aber große Dateien.
Kontrast: Klarer schwarzer Text auf weißem Papier scannt mit nahezu perfekter Genauigkeit. Verblasste Tinte, farbiges Papier oder geringer Kontrast führen zu mehr Fehlern.
Skew: Seiten, die in einem erheblichen Winkel gescannt werden, führen zu mehr Fehlern. Moderne OCR-Tools verfügen über eine Schräglaufkorrektur, um leichte Schräglagen zu korrigieren, aber große Winkel verschlechtern die Genauigkeit.
Schrifttyp: Standarddruckschriften in gängigen Schriftarten (Times, Arial, Helvetica) werden genau erkannt. Dekorative, handgeschriebene oder sehr kleine Schriftarten verursachen mehr Fehler.

Nach OCR: Überprüfen Sie, bevor Sie sich auf den Text verlassen

OCR ist nicht perfekt – selbst hochwertige Scans verursachen gelegentlich Erkennungsfehler. Häufige Fehler sind die Verwechslung von 0 mit O, 1 mit l, rn mit m und das falsche Lesen von Zeichen in der Nähe von Seitenrändern. Überprüfen Sie bei einem Dokument, bei dem es auf Genauigkeit ankommt – einem Vertrag, einem Finanzbericht oder einer Gerichtsakte – die OCR-Ausgabe anhand des Originals, bevor Sie sich darauf verlassen.

In Acrobat Pro ist die Funktion „Suchen & Die Ersetzungsfunktion kann dabei helfen, häufige OCR-Fehler systematisch zu lokalisieren. Suchen Sie nach „0“ und überprüfen Sie jedes Ergebnis, um zu sehen, ob eines „O“ sein sollte oder umgekehrt. Bei kritischen Dokumenten ist ein vollständiges Korrekturlesen anhand des Originalscans die einzige Möglichkeit, die Genauigkeit zu gewährleisten. Für allgemeine Referenzzwecke – ein Archiv durchsuchbar machen, Text zur Analyse extrahieren – reicht normalerweise eine kurze Stichprobe aus.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →