Waarom kan ik geen tekst uit mijn PDF kopiëren?

Er zijn drie totaal verschillende redenen waarom tekst niet uit een PDF wordt gekopieerd, en elk heeft een andere oplossing. De aanpak die het ene oplost, helpt niet bij het andere, dus het diagnosticeren van de situatie waarin u zich bevindt, bespaart u een hoop frustratie.

Reden 1: De PDF is een gescande afbeelding

Dit is de meest voorkomende oorzaak. Wanneer u een fysiek document scant, fotografeert de scanner de pagina en slaat deze foto op in een PDF-container. De tekst die u op het scherm ziet, maakt deel uit van een afbeelding (pixels die zo zijn gerangschikt dat ze op letters lijken) en geen echte teksttekens die kunnen worden geselecteerd of gekopieerd. Als u erop klikt, is het alsof u tekst van een foto probeert te kopiëren.

Snelle test: probeer te klikken en te slepen om een enkel woord te markeren. Als u afzonderlijke woorden of letters kunt markeren, staat er echte tekst in het bestand. Als uw cursor zich gedraagt alsof u een rechthoek van een afbeelding selecteert en u alleen een vak met pagina-inhoud kunt pakken, is het een gescande afbeelding.

De oplossing is OCR: optische tekenherkenning. OCR-software analyseert de afbeelding, identificeert de tekst en voegt een echte tekstlaag toe aan de PDF die kan worden doorzocht, geselecteerd en gekopieerd. Nadat de OCR is uitgevoerd, ziet het document er identiek uit, maar gedraagt het zich als een normale PDF. De tool OCR PDF van WukongPDF doet dit in de browser: upload de gescande PDF, verwerk deze en download een doorzoekbare versie.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

Reden 2: Kopiëren is beperkt door de eigenaar van het document

PDF heeft een toestemmingssysteem waarmee makers kunnen beperken wat lezers met een document kunnen doen. Een van die beperkingen is kopiëren: de eigenaar kan lezen toestaan, maar tekstselectie en kopiëren blokkeren. Als deze beperking is ingesteld, kunt u de tekst op het scherm zien en lezen, maar wanneer u deze probeert te selecteren, wordt er niets gemarkeerd, of wanneer u plakt, komt er niets door.

U kunt controleren of dit het geval is: ga in de meeste PDF-viewers naar Bestand → Eigenschappen of Documenteigenschappen en kijk vervolgens naar het tabblad Beveiliging of Machtigingen. Er wordt vermeld wat toegestaan en beperkt is. Als "Inhoud kopiëren" wordt weergegeven als Niet toegestaan, de kopieerbeperking is actief.

Of u deze beperking kunt verwijderen, hangt af van of u over het wachtwoord beschikt. Als het uw eigen document is en u het wachtwoord onthoudt, kunt u met elke PDF-editor het openen met het wachtwoord en de beperkingen opheffen. Als het een document is dat iemand anders u heeft gestuurd en hij of zij opzettelijk het kopiëren heeft beperkt, moet u hem of haar vragen een onbeperkte versie te verzenden.

Reden 3: De tekst wordt gekopieerd maar komt er onleesbaar uit

Soms werkt kopiëren technisch gezien wel, maar wat je plakt is onzin: willekeurige tekens, symbolen of tekst in de verkeerde volgorde. Dit is een probleem met de codering van lettertypen. Sommige PDFs gebruiken aangepaste of ingesloten lettertypen met niet-standaard tekentoewijzingen. De PDF-viewer kan de tekst visueel weergeven met behulp van het lettertype, maar wanneer u de onderliggende tekencodes probeert te kopiëren, komen deze niet overeen met de letters die u ziet.

Dit komt het vaakst voor bij oudere PDFs, documenten die zijn gemaakt met bepaalde ontwerpsoftware of bestanden die ongebruikelijke lettertypecodering gebruiken. De enige betrouwbare oplossing is het uitvoeren van OCR op het document, waardoor de visuele inhoud opnieuw wordt gelezen en een nieuwe, correcte tekstlaag ontstaat. Dit vervangt de kapotte codering door schone, kopieerbare tekst.

Wanneer tekst wordt gekopieerd maar er opmaakproblemen optreden

Een iets ander probleem: de tekst wordt correct gekopieerd, maar verschijnt met verkeerde regeleinden, samengevoegde woorden of ontbrekende spaties. Dit is normaal gedrag bij PDF-tekstextractie. PDFs slaan tekst op als gepositioneerde tekens op een pagina, niet als vloeiende alinea's zoals een Word-document dat doet. Wanneer u een tekstkolom of een lay-out met meerdere kolommen kopieert, weet de extractor niet altijd waar de ene regel eindigt en de andere begint.

Voor kleine hoeveelheden tekst is handmatig opschonen meestal de snelste oplossing. Voor grote volumes (bijvoorbeeld het extraheren van de inhoud van een heel rapport) geeft het converteren van de PDF naar Word met behulp van een PDF Converter-tool een schoner resultaat dan kopiëren en plakken, omdat het conversieproces probeert de documentstructuur te behouden in plaats van de onbewerkte tekenposities te extraheren.

Hoe u de juiste oplossing kiest

Match de oplossing met de diagnose:

Kan geen tekst selecteren, cursor gedraagt zich als een afbeelding → OCR uitvoeren
Tekst kan op het scherm worden geselecteerd, maar kan niet worden geplakt → Controleer de documentrechten, neem contact op met de afzender als deze beperkt is
Plakt als verminkte tekens → Voer OCR uit om de tekstlaag opnieuw op te bouwen
Kopieert correct maar heeft een slechte opmaak → Converteer naar Word voor grote extracties, ruim handmatig op voor kleine extracties

De OCR-route lost drie van de vier gevallen op. Daarom is dit meestal het eerste dat u probeert als u niet zeker weet wat er aan de hand is. Een gescande PDF die OCR heeft ondergaan, gedraagt zich als elk normaal tekstdocument: volledig doorzoekbaar, selecteerbaar en kopieerbaar.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →