Mensen gebruiken vaak "PDF" en "gescand document" door elkaar - vooral in kantooromgevingen waar iemand zegt "scan het gewoon en stuur een PDF." Maar een PDF en een gescand document zijn niet hetzelfde, en het samenvoegen van deze twee veroorzaakt echte verwarring. Een scan kan worden opgeslagen als een PDF, maar niet alle PDFs zijn scans, en het verschil heeft aanzienlijke praktische gevolgen.

Wat een PDF eigenlijk is
PDF staat voor Portable Document Format. Het is een bestandsindeling: een container die veel verschillende soorten inhoud kan bevatten: echte tekst, vectorafbeeldingen, afbeeldingen, hyperlinks, formuliervelden, bladwijzers en meer. Het PDF-formaat is ontworpen om documenten consistent weer te geven op elk apparaat of besturingssysteem.
Een PDF gemaakt op basis van een Word-document bevat daadwerkelijke tekst: tekens die de computer kan lezen, zoeken, kopiëren en verwerken. Een PDF gemaakt op basis van een Excel-spreadsheet bevat echte gegevens. Een PDF gegenereerd door een browser bevat echte webpagina-inhoud. In beide gevallen is de PDF een gestructureerd document met authentieke inhoud, en geen foto.
Probeer PDF OCR
Geen installatie nodig. Werkt rechtstreeks in uw browser.
Wat een gescand document is
Een gescand document is een foto van een fysieke pagina. Een scanner vangt het door het papier weerkaatste licht op en zet dit om in een raster van pixels: een rasterafbeelding. Het resulterende bestand is een afbeelding van het document, niet het document zelf. Alle tekst die op de scan zichtbaar is, bestaat alleen uit gekleurde pixels die zo zijn gerangschikt dat ze op letters lijken.
Wanneer die scan wordt opgeslagen als een PDF, krijgt u een PDF-bestand, maar dan één waarvan de inhoud een afbeelding is en geen tekst. De PDF-container is echt, maar wat erin zit is een foto. Dit wordt een PDF met alleen afbeeldingen of een Gescande PDF genoemd en gedraagt zich heel anders dan een PDF met daadwerkelijke tekstinhoud.
Waarom er verwarring bestaat
De verwarring komt voort uit het feit dat gescande documenten meestal worden opgeslagen als PDFs. Scanners en scanner-apps voeren doorgaans standaard .pdf-bestanden uit. Dus als iemand een "PDF," ze hebben mogelijk een digitale PDF met echte tekst ontvangen, of een gescande PDF met afbeeldingsinhoud - en de twee zien er op het scherm identiek uit.
Het onderscheid wordt pas duidelijk als u iets met het bestand probeert te doen. Probeer een woord te zoeken. Probeer een zin te kopiëren. Probeer een schermlezer te gebruiken. Een digitale PDF regelt dit allemaal. Een gescande PDF verwerkt geen van deze bestanden, tenzij OCR is toegepast om een tekstlaag toe te voegen.
De praktische verschillen die ertoe doen
- Doorzoekbaarheid: digitale PDFs zijn volledig doorzoekbaar. Gescande PDFs leveren geen resultaten op, tenzij OCR is toegepast.
- Bestandsgrootte: digitale PDFs zijn compact: een tekstdocument van 10 pagina's is doorgaans minder dan 500 KB. Gescande PDFs slaan paginaafbeeldingen op en zijn doorgaans 10-100x groter.
- Kopiëren en plakken: u kunt tekst selecteren en kopiëren uit een digitale PDF. Dit is niet mogelijk vanuit een gescande PDF. Als u probeert tekst te selecteren, wordt de hele paginaafbeelding geselecteerd.
- Bewerken: digitale PDFs kunnen tekst rechtstreeks laten bewerken met een PDF-editor. Op gescande PDFs kan alleen nieuwe inhoud bovenaan worden geplaatst; de bestaande afbeeldingsinhoud kan niet worden gewijzigd.
- Toegankelijkheid: schermlezers werken met digitale PDFs. Gescande PDFs zijn volledig ontoegankelijk voor ondersteunende technologie zonder een OCR-tekstlaag.
Hoe weet u welk type u heeft
Open de PDF en probeer op een woord te klikken. In een digitale PDF wordt de cursor een tekstcursor en kunt u afzonderlijke woorden selecteren. In een gescande PDF gebeurt er niets of wordt de hele pagina als één blok geselecteerd.
Druk op Ctrl+F en zoek naar een woord dat u op de pagina kunt zien. Als het wordt gevonden, bevat de PDF echte tekst. Als de zoekopdracht niets oplevert, is er sprake van alleen afbeeldingen. Een derde indicator is de zoomkwaliteit: inzoomen op een digitale PDF houdt de tekst scherp bij elke vergroting, terwijl inzoomen op een gescande PDF pixelvorming onthult naarmate u de afbeelding vergroot.
Een gescande PDF maken die zich gedraagt als een digitale
OCR – Optical Character Recognition – leest de afbeeldingen in een gescande PDF, herkent de teksttekens en voegt een echte tekstlaag toe aan het bestand. Na OCR wordt het document doorzoekbaar, kopieerbaar en toegankelijk. De OCR-tool van WukongPDF op www.wukongpdf.com doet dit zonder desktopsoftware: upload de gescande PDF, voer OCR uit en download een versie die nu echte tekst bevat. Het verandert een Gescande PDF niet in een origineel digitaal document, maar het dicht het grootste deel van de praktische kloof.
Probeer PDF OCR
Geen installatie nodig. Werkt rechtstreeks in uw browser.
