Twee PDFs kunnen er op het scherm identiek uitzien, maar zich totaal anders gedragen. Er wordt er één geopend en je kunt in de tekst klikken, een woord zoeken, een alinea kopiëren. De andere ziet er hetzelfde uit, maar klikken doet niets: de cursor komt niet op de tekst terecht, Ctrl+F vindt niets. Het verschil is of de PDF digitaal is gemaakt of door een fysiek document te scannen. Het begrijpen van dit onderscheid verklaart een groot deel van het frustrerende gedrag dat mensen tegenkomen bij PDFs.

Hoe elk type wordt gemaakt
Een digitale PDF wordt rechtstreeks vanuit software gemaakt: geëxporteerd uit Word, gegenereerd door boekhoudsoftware, geproduceerd door de afdrukfunctie van een webbrowser, of gemaakt door een toepassing die PDF kan uitvoeren. De tekst in het bestand bestaat uit echte karaktergegevens. De computer kent elk woord, elke letter, elke spatie.
Een gescande PDF wordt gemaakt door een fysiek document te fotograferen of te scannen. De scanner legt een afbeelding van de pagina vast: een raster van pixels dat op tekst lijkt maar geen tekstgegevens bevat. Het bestand is een foto verpakt in een PDF-container. De computer ziet een beeld, geen woorden.
Probeer PDF OCR
Geen installatie nodig. Werkt rechtstreeks in uw browser.
Hoe weet u welk type u heeft
De snelste test: probeer een woord te selecteren door te klikken en te slepen. In een digitale PDF verandert de cursor in een tekstcursor en worden afzonderlijke woorden gemarkeerd. In een gescande PDF wordt niets gemarkeerd, of wordt de hele pagina geselecteerd als één afbeeldingsblok.
Een tweede test: druk op Ctrl+F en zoek naar een woord dat je op de pagina ziet. In een digitale PDF wordt het meteen gevonden. In een gescande PDF levert de zoekopdracht niets op. Een derde indicator is de bestandsgrootte; een gescande PDF is doorgaans veel groter dan een digitale PDF met dezelfde inhoud, omdat deze afbeeldingsgegevens opslaat in plaats van efficiënte tekstcodering.
Belangrijkste verschillen in de praktijk
- Doorzoekbaarheid: digitale PDFs zijn volledig doorzoekbaar op inhoud. Gescande PDFs zijn onzichtbaar voor zoeken; alleen vindbaar op bestandsnaam, tenzij OCR is toegepast.
- Kopiëren en plakken: digitale PDFs maken tekstselectie en kopiëren mogelijk. Gescande PDFs doen dat niet; u moet de inhoud die u wilt extraheren opnieuw typen.
- Bestandsgrootte: een digitaal tekstdocument van 10 pagina's is doorgaans 100-300 KB groot. Dezelfde pagina's als een kleurenscan met 300 DPI zijn 20-40 MB groot – ongeveer 100 keer groter.
- Toegankelijkheid: schermlezers werken met digitale PDFs. Gescande PDFs zijn volledig ontoegankelijk zonder OCR; er is geen tekst die de schermlezer kan lezen.
- Afdrukkwaliteit: digitale PDFs worden op elk formaat afgedrukt zonder kwaliteitsverlies, omdat tekst- en vectorelementen oneindig schalen. Gescande PDFs worden afgedrukt met een vaste resolutie: zoom voldoende in en de pixels worden zichtbaar.
- Bewerken: digitale PDFs kunnen worden bewerkt met een PDF Editor — door op de tekst te klikken en deze direct te wijzigen. Gescande PDFs kunnen alleen worden bewerkt door nieuwe inhoud bovenop de afbeelding te plaatsen, niet door bestaande inhoud te wijzigen.
De kloof overbruggen: wat OCR doet
OCR (Optical Character Recognition) overbrugt het grootste deel van de kloof tussen gescande en digitale PDFs. Door een Gescande PDF via een OCR-tool uit te voeren, wordt een echte tekstlaag aan het bestand toegevoegd: de afbeelding blijft zichtbaar, maar daaronder heeft de software de werkelijke tekens herkend en ingesloten. Na OCR wordt het document doorzoekbaar, kopieerbaar en toegankelijk voor schermlezers.
OCR is niet perfect: de nauwkeurigheid hangt af van de scankwaliteit, de helderheid van het lettertype en de taal. Maar voor schone scans van getypte documenten in standaardlettertypen is moderne OCR zeer nauwkeurig en transformeert een frustrerende PDF met alleen afbeeldingen in een document dat zich gedraagt als een echt digitaal document. De OCR-tool van WukongPDF op www.wukongpdf.com regelt dit zonder dat je desktopsoftware nodig hebt.
Welk type te gebruiken voor verschillende doeleinden
- Voor documenten die u zelf maakt: maak altijd digitale PDFs door te exporteren vanuit de brontoepassing. Scan nooit een afdruk van iets dat u digitaal hebt gemaakt; dat zorgt voor onnodige degradatie.
- Voor fysieke documenten die digitaal moeten zijn: scannen is de enige optie, maar voer onmiddellijk daarna OCR uit om het resultaat net zo bruikbaar te maken als een digitale PDF.
- Voor het archiveren van belangrijke documenten: als u over de originele digitale bron beschikt, archiveert u de digitale PDF. Als u alleen een fysiek document heeft, scan het dan, pas OCR toe, comprimeer het en sla de met OCR verwerkte versie op.
Probeer PDF OCR
Geen installatie nodig. Werkt rechtstreeks in uw browser.
