Others

Warum werden beim Kopieren von Text aus einem PDF zusätzliche Zeilenumbrüche hinzugefügt?

Sie kopieren einen Absatz aus einem PDF und fügen ihn an einer anderen Stelle ein, und jede Zeile endet mit einem harten Zeilenumbruch – der Text fließt nicht um, sondern wird nur an der Stelle umgebrochen, an der die Zeile zufällig auf der Seite endete. Dies ist eines der häufigsten PDF-Ärgernisse und hat eine bestimmte technische Ursache, die erklärt, warum es auftritt und was Sie dagegen tun können.

Why Does Copying Text From a PDF Add Extra Line Breaks?

Warum das passiert: Wie PDF Text speichert

Ein PDF speichert Text nicht als Absätze, wie dies bei Word oder Google Docs der Fall ist. Stattdessen werden einzelne Zeichen oder kleine Gruppen von Zeichen gespeichert, jedes an einer bestimmten Position auf der Seite – X- und Y-Koordinaten, die jedes Textstück genau dort platzieren, wo es erscheinen soll. Der PDF-Renderer zeichnet diese positionierten Teile, um das angezeigte visuelle Ergebnis zu erzeugen.

Wenn Sie Text kopieren, muss der PDF-Viewer den Textstrom aus diesen positionierten Fragmenten rekonstruieren. Es liest die Zeichen der Reihe nach und muss anhand der vertikalen Positionsänderungen erraten, wo eine Zeile endet und eine andere beginnt. Wenn es einen Zeilenumbruch erkennt – einen Sprung in der Y-Position – fügt es ein Zeilenumbruchzeichen ein. Das Ergebnis ist, dass jede visuelle Zeile im PDF zu einer separaten Zeile im eingefügten Text wird.

Dies ist ein grundlegendes Merkmal der Funktionsweise der PDF-Textextraktion und kein Fehler in einem bestimmten Viewer. Einige PDFs enthalten Strukturinformationen, die dem Betrachter helfen, zwischen weichen Zeilenumbrüchen (innerhalb eines Absatzes) und harten Absatzumbrüchen zu unterscheiden – viele tun dies jedoch nicht, insbesondere ältere PDFs oder solche, die aus bestimmter Software exportiert wurden.

WukongPDF

Versuchen Sie, PDF zu bearbeiten

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →

Wenn es schlimmer ist: Mehrspaltige Layouts

Mehrspaltige Layouts verschlimmern dieses Problem noch erheblich. Wenn Text in zwei oder drei Spalten fließt, verschachtelt der PDF-Viewer, der Text in der Reihenfolge von links nach rechts und von oben nach unten extrahiert, häufig Text aus verschiedenen Spalten – eine Zeile aus der linken Spalte, dann eine Zeile aus der rechten Spalte und dann die nächste Zeile von links. Die resultierende Paste ist durcheinander und erfordert eine umfangreiche manuelle Reinigung.

Berüchtigt dafür sind wissenschaftliche Arbeiten im zweispaltigen Format. Beim Kopieren eines Absatzes aus einer Forschungsarbeit PDF entstehen häufig abwechselnde Fragmente aus beiden Spalten und kein sauberer einspaltiger Textblock.

Schnelle Lösungen für kleine Textmengen

Für einige Absätze lässt sich die schnellste Lösung nach dem Einfügen durch Suchen und Ersetzen in Ihrem Texteditor oder Textverarbeitungsprogramm erzielen. Sie möchten einzelne Zeilenumbrüche (die innerhalb von Absätzen unerwünscht sind) ersetzen und gleichzeitig doppelte Zeilenumbrüche (die echte Absätze trennen) beibehalten.

Verwenden Sie in Microsoft Word Suchen & Durch Platzhalter ersetzen: Ersetzen Sie einzelne Absatzmarken (^p), denen keine weitere Absatzmarke folgt, durch ein Leerzeichen. In einem Nur-Text-Editor können Sie mit den meisten Suchen-und-Ersetzen-Tools Regex verwenden, um dasselbe zu tun. Dadurch wird eine unterbrochene 30-Zeilen-Paste in Sekundenschnelle zu einem ordnungsgemäß umfließenden Absatz reduziert.

Bessere Ansätze für große Textmengen

Zum Extrahieren großer Textmengen aus einem PDF ist Kopieren und Einfügen das falsche Werkzeug. Das Konvertieren von PDF in Word mit einem PDF-Konverter führt zu besseren Ergebnissen, da beim Konvertierungsprozess versucht wird, die Dokumentstruktur zu rekonstruieren – indem Absätze, Überschriften und Layout identifiziert werden – und nicht nur die Rohzeichenpositionen zu extrahieren.

Das konvertierte Word-Dokument muss noch überprüft werden, insbesondere bei komplexen Layouts, aber die Absatzstruktur ist normalerweise intakt und Sie haben es nicht mit zeilenweisen Umbrüchen im gesamten Dokument zu tun.

Viewerspezifische Verbesserungen

Einige PDF-Viewer beherrschen die Textextraktion besser als andere. Adobe Acrobat Reader verfügt über eine Funktion zum Kopieren mit Formatierung. Option, mit der Absätze besser rekonstruiert werden können als mit einer einfachen Kopie. Wenn Sie regelmäßig Text extrahieren, wird beim Testen verschiedener Viewer für dasselbe PDF manchmal einer gefunden, der eine sauberere Ausgabe liefert.

Letztendlich hängt die Qualität der Textextraktion davon ab, wie das PDF erstellt wurde. Ein gut strukturiertes PDF, das aus einem modernen Textverarbeitungsprogramm mit der richtigen Absatzmarkierung exportiert wurde, extrahiert sauber. Ein PDF, das in eine Datei gedruckt, aus einem Bild konvertiert oder aus einer Software exportiert wurde, die keine Strukturinformationen einbettet, führt beim Kopieren immer zu fehlerhaftem Text. Für diese Dateien ist die Konvertierung in Word der zuverlässige Weg.

WukongPDF

Versuchen Sie, PDF zu bearbeiten

Keine Installation erforderlich. Funktioniert direkt in Ihrem Browser.

Jetzt starten →