Waarom kan ik niet naar tekst zoeken in mijn PDF?

Op Ctrl+F drukken in een PDF en niets vinden (of de zoekbalk vinden werkt maar levert geen resultaten op, zelfs niet voor woorden die u duidelijk op de pagina kunt zien) is een probleem met de tekstlaag. De PDF bevat geen doorzoekbare tekst, wat betekent dat u naar een afbeelding kijkt en niet naar echte tekens. De oplossing is OCR, en het is sneller dan de meeste mensen verwachten.

Why Can't I Search for Text Inside My PDF?

Waarom sommige PDFs geen doorzoekbare tekst hebben

Een PDF kan twee fundamenteel verschillende soorten inhoud bevatten. De eerste is echte tekst: tekens die zijn opgeslagen als tekstgegevens en die kunnen worden doorzocht, geselecteerd en gekopieerd. De tweede zijn afbeeldingsgegevens: een foto van een pagina waarvan de letters slechts pixels zijn, visueel niet te onderscheiden van echte tekst op het scherm, maar structureel compleet anders.

Gescande documenten zijn altijd op afbeeldingen gebaseerd: de scanner fotografeert de pagina. Maar zelfs digitaal gemaakte documenten kunnen uiteindelijk alleen uit afbeeldingen bestaan als ze zijn geconverteerd door de inhoud plat te maken, vanuit bepaalde ontwerpsoftware zijn geëxporteerd zonder tekstbehoud, of zijn opgeslagen via print-naar-afbeelding-workflows. Het visuele resultaat ziet er identiek uit; alleen de onderliggende datastructuur is anders.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

Hoe u kunt controleren of uw PDF een tekstlaag heeft

Open de PDF en probeer te klikken en slepen om een enkel woord te selecteren. Als u afzonderlijke woorden kunt markeren en de geselecteerde tekst blauw wordt gemarkeerd (of de selectiekleur van uw kijker), heeft de PDF een echte tekstlaag en zou doorzoekbaar moeten zijn. Als klikken en slepen een rechthoekig selectievak over de paginaafbeelding oplevert in plaats van specifieke woorden te markeren, is het document op afbeeldingen gebaseerd.

Een tweede test: probeer Ctrl+A om alles te selecteren. In een op tekst gebaseerde PDF wordt tekst door het hele document gemarkeerd. In een op afbeeldingen gebaseerde PDF selecteert niets zichtbaar, of wordt de hele pagina geselecteerd als één afbeeldingsblok.

De oplossing: OCR uitvoeren

OCR (optische tekenherkenning) leest de afbeelding en converteert wat hij ziet in teksttekens, waardoor een tekstlaag wordt toegevoegd aan de PDF. Na OCR is het document doorzoekbaar: Ctrl+F vindt woorden, tekst kan worden geselecteerd en gekopieerd en schermlezers kunnen de inhoud interpreteren.

De tool OCR PDF van WukongPDF regelt dit in de browser. Upload de op afbeeldingen gebaseerde PDF, voer OCR uit en download de doorzoekbare versie. Het uiterlijk van het document verandert niet (de pagina's zien er identiek uit), maar de onderliggende gegevens bevatten nu een tekstlaag die door zoek- en selectiehulpmiddelen kan worden gebruikt.

De nauwkeurigheid van de OCR is afhankelijk van de kwaliteit van de originele scan. Heldere, contrastrijke zwarte tekst op wit papier met OCR's van meer dan 200 DPI en een nauwkeurigheid van 98-99%. Vervaagde inkt, scans met een lage resolutie, ongebruikelijke lettertypen of handschrift veroorzaken meer fouten. Voor de meeste getypte zakelijke documenten zijn de OCR-resultaten helder genoeg om onmiddellijk te gebruiken.

Wanneer zoeken niets oplevert ondanks bestaande tekst

Een minder vaak voorkomende situatie: de PDF heeft een echte tekstlaag, tekstselectie werkt, maar de zoekfunctie levert nog steeds geen resultaten op. Dit betekent meestal dat de zoekindex van de PDF-viewer nog niet is opgebouwd. Sommige kijkers bouwen de index na het openen op de achtergrond. Wacht een paar seconden en probeer het opnieuw. Als het probleem zich blijft voordoen, probeer dan een andere zoekopdracht en gebruik eenvoudiger termen, of open het bestand in een andere viewer.

Een andere oorzaak: de tekstlaag bestaat, maar bevat verminkte tekens vanwege problemen met de lettertypecodering. Als u een zin probeert te kopiëren en ergens anders te plakken en deze verschijnt als willekeurige symbolen, is de tekstcodering verbroken. OCR lost dit ook op: het bouwt de tekstlaag helemaal opnieuw op door de visuele inhoud te lezen en vervangt de kapotte codering door correcte tekst.

Toekomstige PDFs altijd doorzoekbaar maken

Voor gescande documenten betekent het uitvoeren van OCR onmiddellijk na het scannen dat elke gescande PDF doorzoekbaar is vanaf het moment dat deze wordt opgeslagen. In sommige scannersoftware is OCR ingebouwd en wordt deze automatisch toegepast. Schakel deze instelling in als deze beschikbaar is. Voor scanners zonder ingebouwde OCR voegt een snelle OCR-pas na de scan vóór het archiveren seconden per document toe en bespaart u aanzienlijke tijd wanneer u weken of maanden later iets moet vinden.

Zorg ervoor dat u voor digitaal gemaakte documenten een goede export gebruikt in plaats van afdrukken naar afbeelding. Als u rechtstreeks vanuit Word, Google Documenten of een andere professionele applicatie exporteert, blijft de tekstlaag automatisch behouden. Het doorzoekbaarheidsprobleem doet zich alleen voor als het exportproces de inhoud rastert – wat meestal gebeurt bij print-to-PDF met behulp van bepaalde stuurprogramma’s, of bij exportopties die het document expliciet plat maken.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →