Warum sieht PDF-Text beim Kopieren anders aus?

Sie kopieren Text aus einem PDF und fügen ihn an einer anderen Stelle ein – und das Ergebnis sieht falsch aus. Zeichen sind nicht in der richtigen Reihenfolge, Ligaturen wie "fi" werden "ﬁ" oder verschwinden, Wörter laufen ohne Leerzeichen zusammen oder Sonderzeichen werden zu Fragezeichen. Hierbei handelt es sich um ein PDF-Textcodierungsproblem, das spezifische Ursachen hat, die erklären, warum es auftritt und was dagegen getan werden kann.

Why Does PDF Text Look Different When Copied?

Wie PDF Text speichert – und warum es schief geht

PDF wurde in erster Linie als visuelles Format konzipiert – es beschreibt genau, wie eine Seite aussieht, nicht was der Text bedeutet. Die interne Textkodierung in einem PDF kann sich erheblich vom Standard-Unicode unterscheiden. Einige PDFs verwenden benutzerdefinierte Glyphenzuordnungen, bei denen die intern gespeicherten Zeichencodes nicht den Standardbuchstabencodes entsprechen. Wenn Sie also kopieren, empfängt die Zwischenablage die internen Codes und nicht die Zeichen, die Sie sehen.

Ein gut aufgebautes PDF enthält eine ToUnicode-Zuordnungstabelle, die dem Betrachter erklärt, wie interne Codes in Standard-Unicode-Zeichen übersetzt werden. Wenn diese Tabelle fehlt, unvollständig oder falsch ist, führt das Kopieren und Einfügen zu verstümmelten Ergebnissen, obwohl der Text perfekt auf dem Bildschirm angezeigt wird. Die Anzeige und der kopierbare Text stammen aus unterschiedlichen Systemen – die Anzeige nutzt die visuelle Glyphe, das Kopieren und Einfügen nutzt die Textdaten.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

Ligaturen und Sonderzeichen

Ligaturen sind typografische Kombinationen – „fi“, „fl“, „ff“, „ffi“ – wobei aus ästhetischen Gründen zwei oder drei Zeichen zu einer einzigen Glyphe zusammengefügt werden. In einem schlecht codierten PDF weist das Ligaturzeichen keine ToUnicode-Zuordnung für die einzelnen Zeichen auf, die es darstellt. Beim Kopieren wird die Ligatur entweder zu einem einzelnen Sonderzeichen (ﬁ statt fi), zu nichts oder zu einem Platzhaltersymbol.

Aus diesem Grund entsteht beim Kopieren aus einigen professionell gesetzten PDFs Text mit fehlenden Buchstaben – Wörter wie „Büro“ oder „Büro“. „Büro“ werden weil das "ffi" Ligatur hatte keine verwendbare Unicode-Zuordnung. Das Wort sah auf dem Bildschirm korrekt aus; Die zugrunde liegenden Textdaten waren fehlerhaft.

Fehlende Leerzeichen zwischen Wörtern

Einige PDFs stellen Leerzeichen nicht als tatsächliche Leerzeichen im Textstrom dar, sondern als Positionsversätze – der Betrachter stellt eine Lücke zwischen Wörtern dar, indem er die Cursorposition bewegt, nicht durch Einfügen eines Leerzeichens. Beim Kopieren wird der Positionsversatz nicht in ein Leerzeichen übersetzt, sodass Wörter zusammenlaufen: "theword" statt „das Wort“.

Dies ist häufig bei PDFs der Fall, die aus Designanwendungen wie InDesign oder Illustrator exportiert werden, wenn der Textabstand auf Designebene und nicht durch die Standardtextcodierung gesteuert wird.

Spalten- und Lesereihenfolgeprobleme

In einem mehrspaltigen PDF stimmt die visuelle Lesereihenfolge (Spalte eins nach unten, dann Spalte zwei nach unten) möglicherweise nicht mit der internen Textreihenfolge überein (von links nach rechts über die gesamte Seitenbreite). Beim Kopieren von Text aus einem zweispaltigen Layout entsteht häufig Text, der Zeile für Zeile zwischen den Spalten wechselt, sodass er verwürfelt erscheint, obwohl jedes einzelne Wort korrekt ist.

Dabei handelt es sich nicht um ein Kodierungsproblem, sondern um ein Problem der Lesereihenfolge. Der Text ist korrekt kodiert; Es wird lediglich in einer Reihenfolge gespeichert, die nicht mit der Art und Weise übereinstimmt, wie ein Mensch es lesen würde. Die Lösung besteht darin, Text jeweils aus einer Spalte zu kopieren, anstatt ihn über beide Spalten hinweg auszuwählen.

Was tun, wenn kopierter Text verstümmelt ist

Versuchen Sie es mit einem anderen PDF-Viewer: unterschiedliche Viewer behandeln die ToUnicode-Zuordnung unterschiedlich. Wenn die Chrome-Kopie verstümmelten Text erzeugt, versuchen Sie es mit dem Kopieren aus Adobe Reader – es führt oft zu saubereren Ergebnissen für dasselbe PDF.
Zuerst in Word konvertieren: a PDF in Word Der Konverter verarbeitet die Textcodierung während der Konvertierung erneut. Das resultierende Word-Dokument erzeugt häufig sauberes Kopieren und Einfügen, auch wenn dies beim ursprünglichen PDF nicht der Fall war.
Führen Sie OCR für eine Kopie aus: OCR-Tools lesen den sichtbaren Text aus Seitenbildern erneut und erstellen frischen, korrekt codierten Text. Das Ergebnis OCR PDF führt möglicherweise zu einem besseren Kopieren und Einfügen als die ursprüngliche Kodierung, insbesondere bei schlecht kodiertem professionellen Satz.
Verwenden Sie Suchen & Ersetzen Sie bei häufigen Fehlern: Wenn die gleiche Ligatur oder das gleiche Zeichen immer wieder falsch eingefügt wird, fügen Sie das eingefügte Ergebnis in Word ein und verwenden Sie „Suchen &“. Ersetzen Sie, um den wiederkehrenden Fehler vollständig zu beheben.

Das Problem an der Quelle verhindern

Wenn Sie PDFs erstellen und ein sauberes Kopier- und Einfügeverhalten für Empfänger sicherstellen möchten, verwenden Sie Anwendungen, die korrekte ToUnicode-Zuordnungen generieren. Microsoft Word exportiert standardmäßig mit der richtigen Unicode-Zuordnung. Adobe InDesign kann abhängig von den Einstellungen mit oder ohne korrekte Textkodierung exportieren. Stellen Sie im Dialogfeld „PDF exportieren“ sicher, dass „Dokumentstruktur für Tab-Reihenfolge verwenden“ ausgewählt ist. und Textbarrierefreiheitsoptionen sind aktiviert. Testen Sie das Kopieren und Einfügen der exportierten PDF-Datei vor der Verteilung, um Kodierungsprobleme zu erkennen, bevor sie die Empfänger erreichen.

Probieren Sie PDF OCR aus

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →