Waarom is mijn PDF niet doorzoekbaar?

Een PDF waarin Ctrl+F niets vindt, waar je geen tekst kunt selecteren of kopiëren, en waar klikken op tekst een rechthoekig kader tekent in plaats van afzonderlijke woorden te markeren: dit is een document zonder tekstlaag. Het wordt opgeslagen als afbeelding in plaats van als tekst, wat betekent dat de lezer de karakters kan zien, maar de software ze niet als karakters kan interpreteren.

Waarom sommige PDFs geen tekstlaag hebben

De meest voorkomende reden is scannen. Wanneer een fysiek document wordt gescand en opgeslagen als PDF, is het resultaat een foto van de pagina verpakt in een PDF-container. De scanner legt vast hoe het document er als afbeelding uitziet, maar weet niet wat de tekens zijn. Zonder een aparte OCR-stap om de afbeelding te interpreteren en tekstgegevens toe te voegen, is de PDF volledig op afbeeldingen gebaseerd.

Andere oorzaken: PDFs geëxporteerd vanuit bepaalde ontwerpsoftware die alle inhoud als afbeeldingen behandelt in plaats van tekst als tekst te behouden, PDFs waarbij tekst naar contouren is geconverteerd (een ontwerptechniek die de visuele weergave corrigeert maar de tekstlaag vernietigt), en PDFs die zijn gemaakt door documenten te fotograferen met een telefoon zonder enige scan-app die OCR toepast.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

Het probleem bevestigen

De snelste test: probeer een woord te selecteren door eroverheen te klikken en te slepen. Als afzonderlijke woorden of tekens worden gemarkeerd, heeft de PDF een tekstlaag en is deze doorzoekbaar. In dat geval is er iets anders dat ervoor zorgt dat de zoekopdracht mislukt (zie het gedeelte hieronder over kapotte tekstlagen). Als het hele paginagebied als een rechthoek wordt geselecteerd, ongeacht waar u naartoe sleept, wordt de pagina opgeslagen als een afbeelding zonder tekst.

Een secundaire controle: druk op Ctrl+A om alles te selecteren. In een document met een tekstlaag selecteert u hiermee alle tekst en kunt u deze kopiëren. In een PDF met alleen afbeeldingen selecteert Ctrl+A de pagina als een geheel object; er wordt geen tekst op het klembord geplaatst wanneer u kopieert.

Een tekstlaag toevoegen met OCR

OCR (optische tekenherkenning) leest de afbeelding op elke pagina en voegt een verborgen tekstlaag toe met de herkende tekens. Het uiterlijk van het document verandert niet (het ziet er nog steeds uit als de originele scan), maar de tekst wordt selecteerbaar, kopieerbaar en doorzoekbaar.

De tool OCR PDF van WukongPDF regelt dit in de browser: upload de gescande PDF, voer OCR uit en download de doorzoekbare versie. Voor zuivere scans met hoog contrast van standaardgedrukte tekst is de nauwkeurigheid hoog genoeg zodat de resulterende tekstlaag betrouwbaar is voor zoeken. Open het verwerkte bestand en druk op Ctrl+F om te verifiëren. Zoeken naar een woord dat duidelijk in het document voorkomt, zou het onmiddellijk moeten vinden.

Wanneer de tekstlaag bestaat, maar zoeken nog steeds niet werkt

Soms bevat een PDF tekst die kan worden geselecteerd, maar kan Ctrl+F deze nog steeds niet vinden. Dit komt meestal neer op een van de drie dingen. Ten eerste kan de lettertypecodering kapot zijn: de PDF bevat tekstgegevens, maar de tekentoewijzingstabel is beschadigd, zodat de kijker iets kan markeren maar niet weet welke tekens welke zijn. Ten tweede kan de tekstlaag van OCR fouten bevatten in het specifieke woord waarnaar u zoekt. Ten derde gebruiken sommige PDFs Unicode-tekens of speciale coderingen die niet overeenkomen met het standaard zoekgedrag.

Bij coderingsproblemen kan het uitvoeren van de PDF via een PDF Converter om de tekst te extraheren en opnieuw in te sluiten soms het probleem met de karaktertoewijzing oplossen. Converteren naar Word, waarbij de tekst door een schone hercoderingsstap wordt gedwongen, en vervolgens terug naar PDF wordt geëxporteerd, kan ook zoekproblemen oplossen die worden veroorzaakt door beschadigde lettertypecodering.

Het probleem bij toekomstige scans voorkomen

Als u regelmatig documenten scant die doorzoekbaar moeten zijn, kunt u OCR in de scanworkflow inbouwen in plaats van deze achteraf toe te voegen. De meeste moderne scannersoftware heeft een optie om OCR automatisch toe te passen en een doorzoekbare PDF direct op te slaan. Telefoonscan-apps zoals Microsoft Lens, Adobe Scan en de camerafunctie van Google Drive passen allemaal standaard OCR toe en produceren vanaf het begin doorzoekbare PDFs - zonder een afzonderlijke verwerkingsstap.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →