Tips & Tricks

4 redenen waarom uw gescande PDF niet doorzoekbaar is (en hoe u dit kunt oplossen)

U scant een document, opent het in een PDF-viewer en probeert naar een woord te zoeken - niets. Of u probeert een regel tekst te selecteren en de cursor springt er gewoon overheen. Het bestand ziet eruit als een pdf, maar gedraagt ​​zich als een foto. Dit is een van de meest voorkomende frustraties bij gescande documenten, en er zijn specifieke redenen waarom dit gebeurt. Hier zijn er vier, samen met wat u kunt doen om ze allemaal te repareren.

4 Reasons Your Scanned PDF Is Not Searchable (And How to Fix It)

1. De scanner heeft het opgeslagen als afbeelding, niet als tekst PDF

Dit is de meest voorkomende oorzaak. Wanneer een scanner een fysiek document vastlegt, wordt er een foto van de pagina gemaakt. Als de scansoftware geen OCR (Optical Character Recognition) toepast op het moment van opslaan, wordt de foto gewoon in een PDF-container verpakt. Het resultaat ziet er precies zo uit als een normale PDF, maar bevat geen echte tekst, alleen pixels die zo zijn gerangschikt dat ze op letters lijken.

U kunt dit bevestigen door in uw PDF-viewer op Ctrl+A (of Cmd+A op Mac) te drukken. Als er niets wordt geselecteerd, of als de hele pagina als één afbeeldingsblok wordt geselecteerd, hebt u te maken met een PDF met alleen afbeeldingen.

De oplossing: voer de PDF uit via een OCR PDF-tool. OCR leest de afbeelding, herkent de tekens en sluit echte, doorzoekbare tekst in het bestand in. De OCR-tool van WukongPDF op www.wukongpdf.com doet dit: upload de gescande PDF, laat het OCR-proces draaien en download een versie waarin de tekst volledig doorzoekbaar en selecteerbaar is.

WukongPDF

Probeer Ocr

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

2. De scankwaliteit is te laag om OCR goed te laten werken

OCR is geen magie: het werkt door pixelpatronen te analyseren en deze te matchen met bekende tekenvormen. Als de scan wazig, scheef, te donker is of met een zeer lage resolutie is vastgelegd, heeft de OCR-engine moeite om letters nauwkeurig te onderscheiden. Het resultaat is ofwel onleesbare tekst, gemiste tekens, of een bestand dat nog steeds niet goed doorzoekbaar is omdat de herkende tekst niet overeenkomt met wat er op de pagina staat.

De minimale resolutie voor betrouwbare OCR is doorgaans 300 DPI. Daaronder daalt de nauwkeurigheid merkbaar. Scheve pagina's (waarbij het document onder een kleine hoek in de scanner is geplaatst) veroorzaken ook problemen, omdat OCR-engines horizontale tekstregels verwachten.

De oplossing: als u opnieuw kunt scannen, doe dit dan met 300 DPI of hoger en plaats het document plat en recht. Als opnieuw scannen geen optie is, bevatten sommige OCR-tools beeldvoorbewerking waarmee u de scan recht kunt zetten en verbeteren voordat deze wordt herkend. Zoek naar die optie voordat u een scan van slechte kwaliteit opgeeft.

3. Het document is in een taal die de OCR-engine niet ondersteunt

OCR-engines zijn getraind op specifieke talen en tekensets. Een engine die is geoptimaliseerd voor talen met Latijns schrift (Engels, Frans, Spaans, Duits) zal moeite hebben met Arabisch, Chinees, Japans, Koreaans of talen met gespecialiseerde karakters. Zelfs in Latijnse schriften kunnen documenten waarin veelvuldig gebruik wordt gemaakt van speciale tekens, diakritische tekens of ongebruikelijke lettertypen herkenningsproblemen veroorzaken.

De oplossing: gebruik een OCR-tool die de taal van uw document expliciet ondersteunt. De meeste moderne OCR PDF-tools vermelden hun ondersteunde talen. Controleer dit voordat u het verwerkt. Als de nauwkeurigheid nog steeds slecht is na gebruik van de juiste taalinstelling, is de scankwaliteit waarschijnlijk de beperkende factor.

4. De PDF heeft beveiligingsinstellingen die tekstextractie blokkeren

Sommige PDF's zijn opzettelijk geconfigureerd om te voorkomen dat tekst wordt gekopieerd of geëxtraheerd. Dit wordt gedaan via de PDF-machtigingsinstellingen. Het document wordt mogelijk prima geopend en ziet er volkomen normaal uit, maar het tekstselectiegereedschap is uitgeschakeld en de zoekopdracht levert geen resultaten op, ook al staat de tekst er technisch gezien wel in.

Dit komt minder vaak voor bij gescande documenten en komt vaker voor bij PDF's die opzettelijk door de maker zijn vergrendeld: bepaalde juridische documenten, beveiligde formulieren of bestanden van organisaties met een strikt documentbeheerbeleid.

U kunt controleren of dit het probleem is door naar de documenteigenschappen in uw PDF-viewer te gaan (meestal onder Bestand > Eigenschappen > Beveiliging) en te kijken welke machtigingen zijn ingeschakeld. Als het kopiëren van inhoud wordt vermeld als niet toegestaan, is dat uw antwoord.

De meeste gescande PDF's zijn in één stap op te lossen

In de meeste gevallen hoeft op een niet-doorzoekbare gescande PDF alleen OCR te worden toegepast. Het probleem met de scankwaliteit is de op een na meest voorkomende oorzaak en kan vaak ook worden opgelost. Voer uw bestand uit via de OCR PDF-tool van WukongPDF op www.wukongpdf.com. Dit is de snelste manier om van een ondoorzoekbare PDF-afbeelding naar een document te gaan waarin u daadwerkelijk kunt vinden wat u zoekt.

WukongPDF

Probeer Ocr

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →