Es gibt drei völlig unterschiedliche Gründe, warum Text nicht aus einem PDF kopiert werden kann, und für jeden gibt es eine andere Lösung. Der Ansatz, der das eine Problem löst, hilft bei den anderen nicht weiter. Die Diagnose, in welcher Situation Sie sich befinden, erspart Ihnen also viel Frustration.

Grund 1: Das PDF ist ein gescanntes Bild
Dies ist die häufigste Ursache. Wenn Sie ein physisches Dokument scannen, fotografiert der Scanner die Seite und speichert dieses Foto in einem PDF-Container. Der Text, den Sie auf dem Bildschirm sehen, ist Teil eines Bildes – Pixel, die so angeordnet sind, dass sie wie Buchstaben aussehen – und keine tatsächlichen Textzeichen, die ausgewählt oder kopiert werden können. Wenn man darauf klickt, ist das so, als würde man versuchen, Text von einem Foto zu kopieren.
Schneller Test: Versuchen Sie, durch Klicken und Ziehen ein einzelnes Wort hervorzuheben. Wenn Sie einzelne Wörter oder Buchstaben hervorheben können, handelt es sich in der Datei um echten Text. Wenn sich Ihr Cursor so verhält, als würden Sie ein Rechteck eines Bildes auswählen und Sie nur eine Box mit Seiteninhalt greifen können, handelt es sich um ein gescanntes Bild.
Die Lösung ist OCR – optische Zeichenerkennung. OCR-Software analysiert das Bild, identifiziert den Text und fügt dem PDF eine echte Textebene hinzu, die durchsucht, ausgewählt und kopiert werden kann. Nachdem OCR ausgeführt wurde, sieht das Dokument identisch aus, verhält sich jedoch wie ein normales PDF. Das Tool OCR PDF von WukongPDF erledigt dies im Browser: Laden Sie das gescannte PDF hoch, verarbeiten Sie es und laden Sie eine durchsuchbare Version herunter.
Probieren Sie PDF OCR aus
Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.
Grund 2: Das Kopieren ist durch den Dokumenteigentümer eingeschränkt
PDF verfügt über ein Berechtigungssystem, mit dem Ersteller einschränken können, was Leser mit einem Dokument tun können. Eine dieser Einschränkungen ist das Kopieren – der Eigentümer kann das Lesen zulassen, aber das Auswählen und Kopieren von Text blockieren. Wenn diese Einschränkung festgelegt ist, können Sie den Text auf dem Bildschirm sehen und lesen, aber wenn Sie versuchen, ihn auszuwählen, wird nichts hervorgehoben, oder beim Einfügen kommt nichts durch.
Sie können überprüfen, ob dies der Fall ist: Gehen Sie in den meisten PDF-Viewern zu Datei → Eigenschaften oder Dokumenteigenschaften und sehen Sie sich dann die Registerkarte Sicherheit oder Berechtigungen an. Es wird aufgelistet, was erlaubt und eingeschränkt ist. Wenn "Inhalt kopieren" Wenn „Nicht erlaubt“ angezeigt wird, ist die Kopierbeschränkung aktiv.
Ob Sie diese Einschränkung aufheben können, hängt davon ab, ob Sie über das Passwort verfügen. Wenn es sich um Ihr eigenes Dokument handelt und Sie sich an das Passwort erinnern, können Sie es mit jedem PDF-Editor mit dem Passwort öffnen und die Einschränkungen aufheben. Wenn es sich um ein Dokument handelt, das Ihnen jemand anderes geschickt hat und das Kopieren absichtlich eingeschränkt wurde, müssen Sie ihn bitten, eine uneingeschränkte Version zu senden.
Grund 3: Der Text wird kopiert, kommt aber verstümmelt heraus
Manchmal funktioniert das Kopieren technisch gesehen, aber was Sie einfügen, ist Müll – zufällige Zeichen, Symbole oder Text in der falschen Reihenfolge. Hierbei handelt es sich um ein Problem mit der Schriftartenkodierung. Einige PDFs verwenden benutzerdefinierte oder eingebettete Schriftarten mit nicht standardmäßigen Zeichenzuordnungen. Der PDF-Viewer kann den Text mithilfe der Schriftart visuell darstellen. Wenn Sie jedoch versuchen, die zugrunde liegenden Zeichencodes zu kopieren, entsprechen diese nicht den angezeigten Buchstaben.
Dies geschieht am häufigsten bei älteren PDFs, Dokumenten, die mit einer bestimmten Designsoftware erstellt wurden, oder Dateien, die eine ungewöhnliche Schriftartenkodierung verwendeten. Die einzige zuverlässige Lösung besteht darin, OCR für das Dokument auszuführen, wodurch der visuelle Inhalt erneut gelesen und eine frische, korrekte Textebene erstellt wird. Dadurch wird die fehlerhafte Kodierung durch sauberen, kopierbaren Text ersetzt.
Wenn Text kopiert wird, aber Formatierungsprobleme auftreten
Ein etwas anderes Problem: Der Text wird korrekt kopiert, weist jedoch falsche Zeilenumbrüche, zusammengeführte Wörter oder fehlende Leerzeichen auf. Dies ist ein normales Verhalten bei der PDF-Textextraktion. PDFs speichern Text als positionierte Zeichen auf einer Seite und nicht als fließende Absätze, wie dies in einem Word-Dokument der Fall ist. Wenn Sie eine Textspalte oder ein mehrspaltiges Layout kopieren, weiß der Extraktor nicht immer, wo eine Zeile endet und eine andere beginnt.
Bei kleinen Textmengen ist die manuelle Bereinigung normalerweise die schnellste Lösung. Bei großen Mengen – zum Beispiel beim Extrahieren des Inhalts eines gesamten Berichts – liefert die Konvertierung von PDF in Word mit einem PDF-Konverter-Tool ein saubereres Ergebnis als das Kopieren und Einfügen, da beim Konvertierungsprozess versucht wird, die Dokumentstruktur beizubehalten, anstatt rohe Zeichenpositionen zu extrahieren.
So wählen Sie die richtige Lösung aus
Ordnen Sie den Fix der Diagnose zu:
- Es kann kein Text ausgewählt werden, der Cursor verhält sich wie ein Bild → OCR ausführen
- Text ist auf dem Bildschirm auswählbar, lässt sich aber nicht einfügen → Überprüfen Sie die Dokumentberechtigungen und wenden Sie sich bei Einschränkungen an den Absender
- Fügt als verstümmelte Zeichen ein → Führen Sie OCR aus, um die Textebene neu aufzubauen
- Kopiert korrekt, hat aber eine schlechte Formatierung → Bei großen Extraktionen in Word konvertieren, bei kleinen manuell bereinigen
Die OCR-Route löst drei der vier Fälle, weshalb es normalerweise das erste ist, was Sie versuchen sollten, wenn Sie nicht sicher sind, was los ist. Ein gescanntes PDF, das OCR durchlaufen hat, verhält sich wie jedes normale Textdokument – vollständig durchsuchbar, auswählbar und kopierbar.
Probieren Sie PDF OCR aus
Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.
