Het extraheren van tekst uit een PDF – als gewoon tekstbestand of in een bewerkbaar document – is een van de vaker benodigde PDF-bewerkingen. Welke aanpak het beste werkt, hangt af van de vraag of de PDF een echte tekstlaag heeft of een gescande afbeelding is, en wat u van plan bent met de geëxtraheerde tekst te doen.

De eenvoudigste methode: kopiëren en plakken
Voor een PDF met selecteerbare tekst is kopiëren en plakken in een teksteditor of tekstverwerker vaak de snelste aanpak. Open de PDF, druk op Ctrl+A om alles te selecteren, op Ctrl+C om te kopiëren en vervolgens op Ctrl+V om in Kladblok, Teksteditor, Word of waar u de tekst ook nodig heeft, te plakken. Dit werkt goed voor korte documenten of wanneer u de inhoud snel nodig heeft zonder dat u zich zorgen hoeft te maken over het behoud van de structuur.
De beperking: bij kopiëren en plakken blijft de opmaak niet behouden, en bij PDFs met meerdere kolommen of documenten met complexe lay-outs wordt de tekst vaak in de verkeerde volgorde weergegeven: kolommen worden tussengevoegd, voetnoten verschijnen midden in de alinea, kop- en voetteksten worden door de hoofdtekst gemengd. Voor een eenvoudig lineair document is dit geen probleem. Bij complexe lay-outs kan het lastig zijn om met de geëxtraheerde tekst te werken.
Probeer PDF naar Word
Geen installatie nodig. Werkt rechtstreeks in uw browser.
Converteren naar Word voor een betere structuur
Wanneer de tekstextractie alinea's, koppen en basisstructuur moet behouden (zodat u de inhoud in een tekstverwerker kunt bewerken in plaats van deze alleen als platte tekst te lezen), is converteren naar Word een beter pad dan kopiëren en plakken. Een PDF Converter analyseert de documentstructuur en probeert alinea's, kopjes, lijsten en tabellen te reconstrueren als echte Word-elementen in plaats van alleen maar de hele tekst in leesvolgorde te dumpen.
Google Docs doet dit gratis: upload de PDF naar Drive, open hem met Google Docs en de tekst verschijnt met redelijk behoud van de structuur. Voor een nauwkeurigere conversie van complexe documenten kunnen speciale PDF-naar-Word-tools de lay-outanalyse beter verwerken dan de ingebouwde importeur van Google.
Extraheren naar platte tekst (.txt)
Voor gegevensverwerking, het invoeren van inhoud naar andere tools of het archiveren van alleen de tekstinhoud zonder enige opmaak is een gewone .txt-extractie schoner dan een Word-conversie. Adobe Acrobat (de betaalde versie) kan een PDF opslaan als platte tekst via Bestand → Exporteren naar → Tekst (gewoon). De gratis Acrobat Reader kan niet in tekst opslaan, maar u kunt alles kopiëren en in Kladblok plakken, wat in feite hetzelfde resultaat oplevert.
Voor batchextractie of programmatisch gebruik extraheert Python met de pdfplumber- of PyPDF2-bibliotheek automatisch tekst uit meerdere PDFs, wat handig is als u veel documenten moet verwerken. Commandoregelprogramma's zoals pdftotext (onderdeel van het Poppler-hulpprogrammapakket, beschikbaar op Mac via Homebrew en Linux via pakketbeheerders) doen hetzelfde efficiënt zonder code te schrijven.
Gescande PDFs: OCR eerst
Voor gescande PDFs zonder tekstlaag werkt geen van de bovenstaande methoden: er hoeft geen tekst te worden geëxtraheerd. De pagina wordt opgeslagen als afbeelding. OCR moet eerst worden uitgevoerd om de tekens te herkennen en een tekstlaag te maken voordat extractie mogelijk is. De tool OCR PDF van WukongPDF voegt de tekstlaag toe aan de PDF; daarna werken de bovenstaande kopieer-plak- of conversiemethoden normaal op de OCR-versie.
Openen met Google Docs van Google Drive voert OCR ook automatisch uit op gescande PDFs. Het is een van de handigste gratis opties omdat de OCR en tekstextractie in één stap plaatsvinden, waardoor er rechtstreeks vanuit de scan een bewerkbaar document ontstaat. De nauwkeurigheid is, zoals altijd, afhankelijk van de scankwaliteit.
Wat verloren gaat bij tekstextractie
Bij elke tekstextractie worden afbeeldingen, grafieken, diagrammen en visuele opmaak verwijderd. Tabellen kunnen verschijnen als door tabs gescheiden tekst of kunnen vervormd raken, afhankelijk van de extractiemethode. Wiskundige notaties, chemische formules en gespecialiseerde symbolen overleven de extractie vaak niet correct; ze kunnen worden weggelaten, vervangen door tijdelijke tekens of weergegeven als onleesbare reeksen. Voor documenten waarin deze elementen van belang zijn, blijft bij het converteren naar Word in plaats van platte tekst meer van de oorspronkelijke structuur behouden.
Probeer PDF naar Word
Geen installatie nodig. Werkt rechtstreeks in uw browser.
