Tips & Tricks

So machen Sie ein PDF durchsuchbar

Bei einem durchsuchbaren PDF wird der Text als tatsächliche Zeichen in der Datei und nicht als Bild gespeichert. Wenn Sie Strg+F drücken und ein Wort eingeben, kann der Betrachter es finden. Wenn Sie Text auswählen und kopieren, werden echte Zeichen kopiert. Bei digital erstellten PDFs erfolgt dies automatisch. Bei gescannten PDFs benötigen Sie OCR, um die Textebene hinzuzufügen.

How to Make a PDF Searchable

So erkennen Sie, ob ein PDF bereits durchsuchbar ist

Öffnen Sie das PDF und versuchen Sie, ein Wort durch Klicken und Ziehen auszuwählen. Wenn einzelne Wörter hervorgehoben werden und Sie sie kopieren können, verfügt das PDF bereits über eine Textebene – es ist durchsuchbar. Wenn durch Klicken eine rechteckige Auswahl über den gesamten Bereich gezeichnet wird, anstatt bestimmte Wörter auszuwählen, wird die Seite als Bild ohne Textebene gespeichert. Dann brauchen Sie OCR.

WukongPDF

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

OCR ausführen, um eine Textebene hinzuzufügen

Das Tool OCR PDF von WukongPDF verarbeitet gescannte PDFs im Browser und gibt eine Version zurück, in der der Text erkannt und neben dem ursprünglichen Scanbild eingebettet wird. Die Seite sieht identisch aus – gleiches visuelles Erscheinungsbild, gleiche Scanqualität –, aber Strg+F findet jetzt Wörter und Text kann ausgewählt und kopiert werden. Laden Sie das gescannte PDF hoch, führen Sie OCR aus und laden Sie die durchsuchbare Version herunter.

Adobe Acrobat Pro verfügt außerdem über eine robuste OCR-Engine unter Extras → Scannen & OCR → Text erkennen. Die Genauigkeit bei schwierigen Scans – blasser Text, ungewöhnliche Schriftarten, nicht-lateinische Schriften – ist im Allgemeinen besser als bei Browser-Tools, bei gedrucktem Standardtext ist der Unterschied jedoch gering. Wenn Sie große Mengen an Dokumenten verarbeiten, bei denen es auf Genauigkeit ankommt, lohnt sich die Investition in die OCR von Acrobat.

OCR-Genauigkeit und Sprachunterstützung

Die OCR-Genauigkeit hängt stark von der Scanqualität ab. Ein sauberer, kontrastreicher Scan eines professionell gedruckten Dokuments mit 200 DPI oder höher wird in der Regel mit einer Zeichengenauigkeit von 98–99 % konvertiert – praktisch fehlerfrei. Eine verblasste Fotokopie, ein schräg aufgenommener Scan oder ein Dokument mit handschriftlichen Anmerkungen weisen mehr Fehler auf, die manuell korrigiert werden müssen.

Die meisten OCR-Tools erkennen die Dokumentsprache automatisch und verwenden sprachspezifische Modelle, um die Genauigkeit zu verbessern. Wenn ein Dokument ständig bestimmte Zeichen falsch erkennt, prüfen Sie, ob die Sprache richtig erkannt wird – das Erzwingen der richtigen Sprache in den OCR-Einstellungen macht oft einen spürbaren Unterschied, insbesondere bei Dokumenten mit Akzentzeichen oder nicht-lateinischen Schriften.

Ein PDF für die Langzeitarchivierung durchsuchbar machen

Organisationen, die Papierarchive digitalisieren, legen oft Wert auf die Durchsuchbarkeit als Hauptziel – die Möglichkeit, ein bestimmtes Dokument oder eine bestimmte Klausel auch Jahre später in Tausenden von Dateien zu finden. Für diesen Anwendungsfall sollte die OCR-Ausgabe in einem Format gespeichert werden, das für eine langfristige Aufbewahrung ausgelegt ist. PDF/A-3 unterstützt eingebettete Textebenen neben dem Seitenbild und ist der Archivstandard, der speziell für durchsuchbare Dokumentarchive entwickelt wurde. Das Ausführen von OCR und das anschließende Konvertieren in die PDF-Komprimierung mit Archivierungseinstellungen gewährleistet sowohl die Durchsuchbarkeit als auch die langfristige Formatstabilität.

Selbst eine unvollständige OCR ist für Archivierungszwecke deutlich besser als keine OCR. Ein Dokument mit einer Zeichengenauigkeit von 95 % ist immer noch durchsuchbar – eine Suche nach „Rechnung“ ist nicht erforderlich. findet die meisten Rechnungen, auch wenn einige Zeichen in einigen Wörtern falsch gelesen wurden. Perfekte OCR ist ideal; Eine funktionale OCR ist immer noch weitaus nützlicher als ein Scan ohne Textebene.

WukongPDF

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →