Waarom ziet PDF-tekst er anders uit wanneer deze wordt gekopieerd?

U kopieert tekst uit een PDF en plakt deze ergens anders - en het resultaat ziet er verkeerd uit. Tekens zijn niet in de juiste volgorde, ligaturen zoals "fi" word "fi" of verdwijnen, woorden lopen zonder spaties door elkaar, of speciale tekens veranderen in vraagtekens. Dit is een PDF-tekstcoderingsprobleem en heeft specifieke oorzaken die verklaren waarom dit gebeurt en wat eraan kan worden gedaan.

Why Does PDF Text Look Different When Copied?

Hoe PDF tekst opslaat – en waarom het fout gaat

PDF is in de eerste plaats ontworpen als een visueel formaat: het beschrijft precies hoe een pagina eruit ziet, niet wat de tekst betekent. De interne tekstcodering in een PDF kan behoorlijk verschillen van standaard Unicode. Sommige PDFs gebruiken aangepaste glyph-toewijzingen waarbij de intern opgeslagen tekencodes niet overeenkomen met standaard lettercodes. Wanneer u kopieert, ontvangt het klembord dus de interne codes in plaats van de tekens die u ziet.

Een goed opgebouwde PDF bevat een ToUnicode-toewijzingstabel die de kijker vertelt hoe interne codes naar standaard Unicode-tekens moeten worden vertaald. Wanneer deze tabel ontbreekt, onvolledig of onjuist is, levert kopiëren en plakken verminkte resultaten op, ook al wordt de tekst perfect op het scherm weergegeven. Het display en de kopieerbare tekst zijn afkomstig van verschillende systemen: display gebruikt de visuele glyph, kopiëren en plakken gebruikt de tekstgegevens.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

Liaturen en speciale tekens

Ligaturen zijn typografische combinaties — "fi", "fl", "ff", "ffi" – waarbij twee of drie karakters om esthetische redenen in één enkele glyph zijn samengevoegd. In een slecht gecodeerde PDF heeft de ligatuur-glyph geen ToUnicode-toewijzing voor de individuele tekens die deze vertegenwoordigt. Bij kopiëren wordt de ligatuur ofwel een enkel speciaal teken (fi in plaats van fi), niets, ofwel een plaatsaanduidingssymbool.

Dit is de reden waarom het kopiëren van sommige professioneel gezette PDFs tekst oplevert met ontbrekende letters - woorden als "kantoor" word "o ce" omdat de "ffi" ligatuur had geen bruikbare Unicode-toewijzing. Het woord zag er correct uit op het scherm; de onderliggende tekstgegevens waren verbroken.

Ontbrekende spaties tussen woorden

Sommige PDFs vertegenwoordigen spaties niet als daadwerkelijke spatietekens in de tekststroom, maar als positionele verschuivingen: de kijker geeft een opening tussen woorden weer door de cursorpositie te verplaatsen, niet door een spatieteken in te voegen. Bij het kopiëren wordt de positionele offset niet vertaald naar een spatie, dus lopen de woorden samen: "hetwoord" in plaats van ‘het woord’.

Dit komt vaak voor bij PDFs die worden geëxporteerd vanuit ontwerptoepassingen zoals InDesign of Illustrator, waarbij de tekstafstand wordt geregeld op ontwerpniveau in plaats van via standaard tekstcodering.

Problemen met kolommen en leesvolgorde

In een PDF met meerdere kolommen komt de visuele leesvolgorde (kolom één omlaag en vervolgens kolom twee omlaag) mogelijk niet overeen met de interne tekstvolgorde (van links naar rechts over de volledige paginabreedte). Het kopiëren van tekst uit een lay-out met twee kolommen levert vaak tekst op die regel voor regel tussen de kolommen afwisselt, waardoor deze er vervormd uitziet, ook al is elk afzonderlijk woord correct.

Dit is geen coderingsprobleem; het is een leesvolgordeprobleem. De tekst is correct gecodeerd; het wordt gewoon opgeslagen in een volgorde die niet overeenkomt met hoe een mens het zou lezen. De oplossing is om tekst uit één kolom tegelijk te kopiëren in plaats van over beide kolommen te selecteren.

Wat te doen als gekopieerde tekst onleesbaar is

Probeer een andere PDF-viewer: verschillende viewers verwerken de ToUnicode-toewijzing anders. Als de kopie van Chrome onleesbare tekst produceert, probeer dan te kopiëren vanuit Adobe Reader; dit levert vaak schonere resultaten op voor dezelfde PDF.
Eerst Converteren naar Word: a PDF naar Word converter verwerkt de tekstcodering opnieuw tijdens de conversie. Het resulterende Word-document produceert vaak netjes kopiëren en plakken, zelfs als de originele PDF dat niet deed.
Voer OCR uit op een kopie: OCR-tools lezen de zichtbare tekst van pagina-afbeeldingen opnieuw en creëren nieuwe, correct gecodeerde tekst. Het resultaat OCR PDF kan beter kopiëren en plakken opleveren dan de originele codering, vooral bij slecht gecodeerd professioneel zetwerk.
Gebruik Zoeken & Vervangen voor veelvoorkomende fouten: als dezelfde ligatuur of hetzelfde teken consequent onjuist wordt geplakt, plakt u het geplakte resultaat in Word en gebruikt u Zoeken & Vervang om de terugkerende fout overal op te lossen.

Het probleem bij de bron voorkomen

Als u PDFs maakt en wilt zorgen voor schoon kopieer-plakgedrag voor ontvangers, gebruik dan toepassingen die correcte ToUnicode-toewijzingen genereren. Microsoft Word exporteert standaard met de juiste Unicode-toewijzing. Adobe InDesign kan exporteren met of zonder de juiste tekstcodering, afhankelijk van de instellingen. Zorg er in het dialoogvenster Exporteren PDF voor dat "Gebruik documentstructuur voor tabvolgorde" en opties voor teksttoegankelijkheid zijn ingeschakeld. Test het kopiëren en plakken van de geëxporteerde PDF voordat u deze distribueert, om coderingsproblemen op te sporen voordat deze de ontvangers bereiken.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →