Warum ist mein PDF nicht durchsuchbar?

Ein PDF, in dem Strg+F nichts findet, in dem Sie keinen Text auswählen oder kopieren können und in dem durch Klicken auf Text ein rechteckiges Feld gezeichnet wird, anstatt einzelne Wörter hervorzuheben – dies ist ein Dokument ohne Textebene. Es wird als Bild und nicht als Text gespeichert, was bedeutet, dass der Leser die Zeichen sehen kann, die Software sie jedoch nicht als Zeichen interpretieren kann.

Warum einige PDFs keine Textebene haben

Der häufigste Grund ist das Scannen. Wenn ein physisches Dokument gescannt und als PDF gespeichert wird, ist das Ergebnis ein Foto der Seite, verpackt in einem PDF-Container. Der Scanner erfasst als Bild, wie das Dokument aussieht, kennt aber die Zeichen nicht. Ohne einen separaten OCR-Schritt zur Interpretation des Bildes und zum Hinzufügen von Textdaten ist das PDF vollständig bildbasiert.

Andere Ursachen: PDFs, die aus einer bestimmten Designsoftware exportiert wurden, die alle Inhalte als Grafiken behandelt, anstatt Text als Text beizubehalten, PDFs, bei denen Text in Umrisse konvertiert wurde (eine Designtechnik, die das visuelle Erscheinungsbild korrigiert, aber die Textebene zerstört) und PDFs, die durch Fotografieren von Dokumenten mit einem Telefon ohne Scan-App erstellt wurden, die OCR anwendet.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

Bestätigung des Problems

Der schnellste Test: Versuchen Sie, ein Wort auszuwählen, indem Sie darauf klicken und darüber ziehen. Wenn einzelne Wörter oder Zeichen hervorgehoben werden, verfügt das PDF über eine Textebene und ist durchsuchbar. In diesem Fall schlägt die Suche aufgrund eines anderen Grunds fehl (siehe Abschnitt unten zu unterbrochenen Textebenen). Wenn der gesamte Seitenbereich als Rechteck ausgewählt wird, unabhängig davon, wohin Sie ziehen, wird die Seite als Bild ohne Text gespeichert.

Eine zweite Prüfung: Drücken Sie Strg+A, um alle auszuwählen. In einem Dokument mit einer Textebene wird dadurch der gesamte Text ausgewählt und Sie können ihn kopieren. In einem Nur-Bild-PDF wählt Strg+A die Seite als ganzes Objekt aus – beim Kopieren wird kein Text in die Zwischenablage eingefügt.

Hinzufügen einer Textebene mit OCR

OCR (optische Zeichenerkennung) liest das Bild auf jeder Seite und fügt eine verborgene Textebene mit den erkannten Zeichen hinzu. Das visuelle Erscheinungsbild des Dokuments ändert sich nicht – es sieht immer noch wie der Originalscan aus –, aber der Text wird auswählbar, kopierbar und durchsuchbar.

Das Tool OCR PDF von WukongPDF übernimmt dies im Browser: Laden Sie das gescannte PDF hoch, führen Sie OCR aus und laden Sie die durchsuchbare Version herunter. Bei sauberen, kontrastreichen Scans von gedrucktem Standardtext ist die Genauigkeit hoch genug, dass die resultierende Textebene zuverlässig durchsuchbar ist. Öffnen Sie die verarbeitete Datei und drücken Sie zur Bestätigung Strg+F. Wenn Sie nach einem Wort suchen, das im Dokument deutlich vorkommt, sollte es sofort gefunden werden.

Wenn die Textebene vorhanden ist, die Suche jedoch immer noch nicht funktioniert

Manchmal enthält ein PDF Text, der ausgewählt werden kann, aber Strg+F kann ihn immer noch nicht finden. Dies hängt normalerweise von einem von drei Dingen ab. Erstens ist möglicherweise die Schriftartenkodierung fehlerhaft – das PDF enthält Textdaten, aber die Zeichenzuordnungstabelle ist beschädigt, sodass der Betrachter etwas hervorheben kann, aber nicht weiß, welche Zeichen welche sind. Zweitens kann die Textebene von OCR Fehler in dem spezifischen Wort enthalten, nach dem Sie suchen. Drittens verwenden einige PDFs Unicode-Zeichen oder spezielle Codierungen, die nicht dem Standardsuchverhalten entsprechen.

Bei Codierungsproblemen kann das Zeichenzuordnungsproblem manchmal dadurch gelöst werden, dass PDF über einen PDF-Konverter ausgeführt wird, um den Text zu extrahieren und erneut einzubetten. Durch die Konvertierung in Word, bei der der Text einen sauberen Neucodierungsschritt durchläuft, und den anschließenden Export zurück nach PDF können auch Suchprobleme behoben werden, die durch beschädigte Schriftartencodierung verursacht werden.

Verhindern des Problems bei zukünftigen Scans

Wenn Sie regelmäßig Dokumente scannen, die durchsuchbar sein müssen, integrieren Sie OCR in den Scan-Workflow, anstatt es erst nachträglich hinzuzufügen. Die meisten modernen Scannerprogramme verfügen über die Option, OCR automatisch anzuwenden und ein durchsuchbares PDF direkt zu speichern. Smartphone-Scan-Apps wie Microsoft Lens, Adobe Scan und die Kamerafunktion von Google Drive wenden alle standardmäßig OCR an und erstellen von Anfang an durchsuchbare PDFs – ohne einen separaten Verarbeitungsschritt.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →