Tips & Tricks

4 Gründe, warum Ihr gescanntes PDF nicht durchsuchbar ist (und wie Sie es beheben können)

Sie scannen ein Dokument, öffnen es in einem PDF-Viewer und versuchen, nach einem Wort zu suchen – nichts. Oder Sie versuchen, eine Textzeile auszuwählen, und der Cursor springt einfach darüber. Die Datei sieht aus wie eine PDF-Datei, verhält sich aber wie ein Foto. Dies ist eine der häufigsten Frustrationen bei gescannten Dokumenten und es gibt bestimmte Gründe dafür. Hier sind vier davon und was Sie tun können, um sie zu beheben.

4 Reasons Your Scanned PDF Is Not Searchable (And How to Fix It)

1. Der Scanner hat es als Bild und nicht als Text gespeichert PDF

Dies ist die häufigste Ursache. Wenn ein Scanner ein physisches Dokument erfasst, erstellt er ein Foto der Seite. Wenn die Scansoftware zum Zeitpunkt des Speicherns keine OCR (optische Zeichenerkennung) anwendet, verpackt sie das Foto einfach in einen PDF-Container. Das Ergebnis sieht genauso aus wie ein normales PDF, enthält aber keinen tatsächlichen Text – nur Pixel, die so angeordnet sind, dass sie wie Buchstaben aussehen.

Sie können dies bestätigen, indem Sie in Ihrem PDF-Viewer Strg+A (oder Befehl+A auf dem Mac) drücken. Wenn nichts ausgewählt wird oder die gesamte Seite als einzelner Bildblock ausgewählt wird, haben Sie es mit einer Nur-Bild-PDF zu tun.

Die Lösung: Führen Sie das PDF über ein OCR PDF-Tool aus. OCR liest das Bild, erkennt die Zeichen und bettet echten, durchsuchbaren Text in die Datei ein. Das OCR-Tool von WukongPDF bei www.wukongpdf.com erledigt dies: Laden Sie das gescannte PDF hoch, lassen Sie den OCR-Prozess laufen und laden Sie eine Version herunter, in der der Text vollständig durchsuchbar und auswählbar ist.

WukongPDF

Probieren Sie Ocr aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

2. Die Scanqualität ist zu niedrig, als dass OCR ordnungsgemäß funktionieren könnte

OCR ist keine Zauberei – sie funktioniert durch die Analyse von Pixelmustern und deren Zuordnung zu bekannten Zeichenformen. Wenn der Scan verschwommen, verzerrt oder zu dunkel ist oder mit einer sehr niedrigen Auflösung erfasst wird, hat die OCR-Engine Schwierigkeiten, Buchstaben genau zu unterscheiden. Das Ergebnis ist entweder verstümmelter Text, fehlende Zeichen oder eine Datei, die immer noch nicht richtig durchsuchbar ist, weil der erkannte Text nicht mit dem Inhalt der Seite übereinstimmt.

Die Mindestauflösung für zuverlässige OCR beträgt im Allgemeinen 300 DPI. Darunter sinkt die Genauigkeit merklich. Auch schiefe Seiten, bei denen das Dokument leicht schräg in den Scanner eingelegt wurde, verursachen Probleme, da OCR-Engines horizontale Textzeilen erwarten.

Die Lösung: Wenn Sie erneut scannen können, tun Sie dies mit 300 DPI oder höher und legen Sie das Dokument flach und gerade auf. Wenn ein erneutes Scannen keine Option ist, verfügen einige OCR-Tools über eine Bildvorverarbeitung, die den Scan vor der Erkennung korrigieren und verbessern kann – suchen Sie nach dieser Option, bevor Sie einen Scan mit schlechter Qualität aufgeben.

3. Das Dokument liegt in einer Sprache vor, die die OCR-Engine nicht unterstützt

OCR-Engines werden auf bestimmte Sprachen und Zeichensätze trainiert. Eine für lateinische Schriftsprachen (Englisch, Französisch, Spanisch, Deutsch) optimierte Engine hat Probleme mit Arabisch, Chinesisch, Japanisch, Koreanisch oder Sprachen mit speziellen Zeichen. Selbst in lateinischen Schriften können Dokumente mit häufigem Einsatz von Sonderzeichen, diakritischen Zeichen oder ungewöhnlichen Schriftarten zu Erkennungsproblemen führen.

Die Lösung: Verwenden Sie ein OCR-Tool, das die Sprache Ihres Dokuments explizit unterstützt. Die meisten modernen OCR PDF-Tools listen ihre unterstützten Sprachen auf – überprüfen Sie sie vor der Verarbeitung. Wenn die Genauigkeit nach Verwendung der richtigen Spracheinstellung immer noch schlecht ist, ist wahrscheinlich die Scanqualität der limitierende Faktor.

4. Das PDF verfügt über Sicherheitseinstellungen, die die Textextraktion blockieren

Einige PDFs sind absichtlich so konfiguriert, dass das Kopieren oder Extrahieren von Text verhindert wird. Dies erfolgt über die PDF-Berechtigungseinstellungen. Das Dokument lässt sich möglicherweise problemlos öffnen und sieht völlig normal aus, aber das Textauswahltool ist deaktiviert und die Suche gibt keine Ergebnisse zurück, obwohl der Text technisch gesehen vorhanden ist.

Dies ist bei gescannten Dokumenten seltener und eher bei PDFs der Fall, die vom Ersteller absichtlich gesperrt wurden – bestimmte Rechtsdokumente, geschützte Formulare oder Dateien von Organisationen mit strengen Dokumentenkontrollrichtlinien.

Sie können überprüfen, ob dies das Problem ist, indem Sie in Ihrem PDF-Viewer zu den Dokumenteigenschaften gehen (normalerweise unter Datei > Eigenschaften > Sicherheit) und nachsehen, welche Berechtigungen aktiviert sind. Wenn das Kopieren von Inhalten als nicht erlaubt aufgeführt ist, ist das Ihre Antwort.

Die meisten gescannten PDFs lassen sich in einem Schritt beheben

In den meisten Fällen muss auf ein nicht durchsuchbares gescanntes PDF lediglich OCR angewendet werden. Das Problem mit der Scanqualität ist die zweithäufigste Ursache und lässt sich oft auch beheben. Führen Sie Ihre Datei über das OCR PDF-Tool von WukongPDF unter www.wukongpdf.com aus – das ist der schnellste Weg, von einem nicht durchsuchbaren Bild-PDF zu einem Dokument zu gelangen, in dem Sie tatsächlich finden, wonach Sie suchen.

WukongPDF

Probieren Sie Ocr aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →