Tips & Tricks

Een PDF doorzoekbaar maken

Een doorzoekbare PDF is een PDF waarin de tekst als werkelijke tekens in het bestand wordt opgeslagen in plaats van als afbeelding. Wanneer u op Ctrl+F drukt en een woord typt, kan de kijker het vinden. Wanneer u tekst selecteert en kopieert, worden echte tekens gekopieerd. Voor digitaal aangemaakte PDFs gebeurt dit automatisch. Voor gescande PDFs heeft u OCR nodig om de tekstlaag toe te voegen.

How to Make a PDF Searchable

Hoe weet ik of een PDF al doorzoekbaar is

Open de PDF en probeer een woord te selecteren door te klikken en te slepen. Als afzonderlijke woorden worden gemarkeerd en u deze kunt kopiëren, heeft de PDF al een tekstlaag en is deze doorzoekbaar. Als klikken een rechthoekige selectie over het hele gebied tekent in plaats van specifieke woorden te selecteren, wordt de pagina opgeslagen als een afbeelding zonder tekstlaag. Dan heb je OCR nodig.

WukongPDF

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

OCR uitvoeren om een ​​tekstlaag toe te voegen

De tool OCR PDF van WukongPDF verwerkt gescande PDFs in de browser en retourneert een versie waarin de tekst wordt herkend en ingesloten naast de originele scanafbeelding. De pagina ziet er identiek uit – hetzelfde visuele uiterlijk, dezelfde scankwaliteit – maar Ctrl+F ontdekt nu dat woorden en tekst kunnen worden geselecteerd en gekopieerd. Upload de gescande PDF, voer OCR uit en download de doorzoekbare versie.

Adobe Acrobat Pro heeft ook een robuuste OCR-engine onder Extra → Scannen & OCR → Tekst herkennen. De nauwkeurigheid bij moeilijke scans (vervaagde tekst, ongebruikelijke lettertypen, niet-Latijnse scripts) is over het algemeen beter dan die van browsertools, hoewel het verschil voor standaard gedrukte tekst klein is. Als u grote hoeveelheden documenten verwerkt waarbij nauwkeurigheid van belang is, is de OCR van Acrobat de investering waard.

OCR-nauwkeurigheid en taalondersteuning

De nauwkeurigheid van de OCR is sterk afhankelijk van de scankwaliteit. Een schone, contrastrijke scan van een professioneel gedrukt document met 200 DPI of hoger wordt doorgaans geconverteerd met een tekennauwkeurigheid van 98-99% - voor praktische doeleinden vrijwel foutloos. Een vervaagde fotokopie, een scan vanuit een hoek of een document met handgeschreven aantekeningen bevatten meer fouten die handmatig moeten worden gecorrigeerd.

De meeste OCR-tools detecteren de documenttaal automatisch en gebruiken taalspecifieke modellen om de nauwkeurigheid te verbeteren. Als een document consequent bepaalde tekens verkeerd herkent, controleer dan of de taal correct wordt gedetecteerd. Het forceren van de juiste taal in de OCR-instellingen maakt vaak een merkbaar verschil, vooral voor documenten met tekens met accenten of niet-Latijnse schriften.

Een PDF doorzoekbaar maken voor archivering op lange termijn

Organisaties die papieren archieven digitaliseren, maken doorzoekbaarheid vaak tot het primaire doel: de mogelijkheid om jaren later een specifiek document of een specifieke clausule in duizenden bestanden terug te vinden. Voor dit gebruiksscenario moet de OCR-uitvoer worden opgeslagen in een formaat dat is ontworpen voor bewaring op lange termijn. PDF/A-3 ondersteunt ingesloten tekstlagen naast de paginaafbeelding en is de archiefstandaard die speciaal is ontworpen voor doorzoekbare documentarchieven. OCR uitvoeren en vervolgens converteren naar PDF Compressie met archiefinstellingen zorgt voor zowel doorzoekbaarheid als formaatstabiliteit op de lange termijn.

Zelfs onvolmaakte OCR is aanzienlijk beter dan geen OCR voor archiveringsdoeleinden. Een document met een tekennauwkeurigheid van 95% is nog steeds doorzoekbaar — een zoekopdracht naar "factuur" vindt de meeste facturen, zelfs als een paar tekens in sommige woorden verkeerd zijn gelezen. Perfecte OCR is ideaal; functionele OCR is nog steeds veel nuttiger dan een scan zonder tekstlaag.

WukongPDF

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →