Waarom voegt het kopiëren van tekst uit een PDF extra regeleinden toe?

Je kopieert een alinea uit een PDF en plakt deze ergens anders, en elke regel eindigt met een harde return: de tekst wordt niet opnieuw geplaatst, maar wordt afgebroken waar de regel op de pagina eindigde. Dit is een van de meest voorkomende PDF-irritaties en heeft een specifieke technische oorzaak die verklaart waarom dit gebeurt en wat u eraan kunt doen.

Why Does Copying Text From a PDF Add Extra Line Breaks?

Waarom dit gebeurt: hoe PDF tekst opslaat

Een PDF slaat tekst niet op als alinea's zoals Word of Google Docs dat doet. In plaats daarvan worden individuele tekens of kleine groepen tekens opgeslagen, elk met een specifieke positie op de pagina: X- en Y-coördinaten die elk stuk tekst precies plaatsen waar het zou moeten verschijnen. De renderer PDF tekent deze gepositioneerde stukken om het visuele resultaat te produceren dat u ziet.

Wanneer u tekst kopieert, moet de PDF-viewer de tekststroom reconstrueren op basis van deze gepositioneerde fragmenten. Het leest de karakters op volgorde en moet raden waar de ene regel eindigt en de andere begint op basis van verticale positieveranderingen. Wanneer het een regeleinde detecteert (een sprong in de Y-positie) voegt het een regeleindeteken in. Het resultaat is dat elke visuele regel in de PDF een aparte regel wordt in de geplakte tekst.

Dit is een fundamenteel kenmerk van de manier waarop PDF-tekstextractie werkt, en geen bug in een specifieke viewer. Sommige PDFs bevatten structurele informatie die kijkers helpt onderscheid te maken tussen zachte regeleinden (binnen een alinea) en harde alinea-einden – maar veel daarvan niet, vooral oudere PDFs of bestanden die uit bepaalde software zijn geëxporteerd.

Probeer Bewerken PDF

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

Als het nog erger is: lay-outs met meerdere kolommen

Lay-outs met meerdere kolommen maken dit probleem nog veel erger. Wanneer de tekst in twee of drie kolommen loopt, extraheert de PDF-viewer tekst in de volgorde van links naar rechts en van boven naar beneden, waarbij vaak tekst uit verschillende kolommen wordt doorvlochten: een regel uit de linkerkolom, dan een regel uit de rechterkolom en dan de volgende regel van links. De resulterende pasta is vervormd en vereist een aanzienlijke handmatige opruiming.

Academische papers in tweekolomsformaat zijn hier berucht om. Het kopiëren van een paragraaf uit een onderzoeksartikel PDF levert vaak afwisselende fragmenten uit beide kolommen op in plaats van een schoon tekstblok met één kolom.

Snelle oplossingen voor kleine hoeveelheden tekst

Voor een paar alinea's is de snelste oplossing een zoek-en-vervang-bewerking in uw teksteditor of tekstverwerker na het plakken. U wilt enkele regeleinden (de ongewenste regeleinden binnen alinea's) vervangen en dubbele regeleinden (die echte alinea's scheiden) behouden.

Gebruik in Microsoft Word Zoeken & Vervangen door jokertekens: vervang enkele alineamarkeringen (^p) die niet worden gevolgd door een andere alineamarkering, en vervang ze door een spatie. In een gewone teksteditor kunt u met de meeste zoek-en-vervang-tools regex gebruiken om hetzelfde te doen. Dit reduceert een gebroken plak van 30 regels binnen enkele seconden tot een correct opnieuw geplaatste alinea.

Betere benaderingen voor grote hoeveelheden tekst

Voor het extraheren van grote hoeveelheden tekst uit een PDF is kopiëren en plakken het verkeerde hulpmiddel. Het converteren van PDF naar Word met behulp van een PDF Converter levert betere resultaten op omdat het conversieproces probeert de documentstructuur te reconstrueren (door alinea's, koppen en lay-out te identificeren) in plaats van alleen maar de onbewerkte tekenposities te extraheren.

Het geconverteerde Word-document moet nog steeds worden beoordeeld, vooral als het gaat om complexe lay-outs, maar de alineastructuur is meestal intact en je hebt niet te maken met regel-voor-regel-einden in het hele document.

Kijkerspecifieke verbeteringen

Sommige PDF-viewers kunnen de tekstextractie beter verwerken dan andere. Adobe Acrobat Reader heeft een optie "Kopiëren met opmaak" optie die alinea's beter reconstrueert dan standaardkopieën. Als u regelmatig tekst extraheert, vindt u bij het testen van verschillende viewers op dezelfde PDF er soms een die een schonere uitvoer oplevert.

Uiteindelijk hangt de kwaliteit van de tekstextractie af van hoe de PDF is gemaakt. Een goed gestructureerde PDF, geëxporteerd vanuit een moderne tekstverwerker met de juiste alinea-tagging, wordt netjes geëxtraheerd. Een PDF die naar een bestand is afgedrukt, van een afbeelding is geconverteerd of is geëxporteerd vanuit software die geen structurele informatie bevat, zal bij het kopiëren altijd afgebroken tekst opleveren. Voor die bestanden is conversie naar Word het betrouwbare pad.

Probeer Bewerken PDF

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →