Het converteren van een afbeelding naar een doorzoekbare PDF bestaat uit twee fasen: eerst wordt de afbeelding een PDF, waarna OCR een tekstlaag toevoegt zodat de inhoud kan worden doorzocht en geselecteerd. Beide stappen kunnen samen worden uitgevoerd in tools die dit ondersteunen, of afzonderlijk als u meer controle over elke fase wenst.

Het verschil tussen een gewone afbeelding PDF en een doorzoekbare afbeelding
Wanneer u een afbeelding zonder OCR naar PDF converteert, krijgt u een PDF waarin de afbeelding wordt weergegeven. U kunt deze openen, inzoomen, afdrukken, maar u kunt geen tekst selecteren, naar woorden zoeken of inhoud kopiëren. Het is in wezen een foto verpakt in een PDF-container. Een doorzoekbare PDF voegt een verborgen tekstlaag toe onder de afbeelding, gemaakt door OCR die de tekst in de afbeelding leest. Het visuele uiterlijk is ongewijzigd, maar nu vindt Ctrl+F woorden en kan tekst worden gekopieerd.
Probeer PDF OCR
Geen installatie nodig. Werkt rechtstreeks in uw browser.
Beide stappen tegelijk uitvoeren
De tool OCR PDF van WukongPDF accepteert afbeeldingen rechtstreeks, niet alleen bestaande PDFs. Upload een JPG-, PNG- of TIFF-bestand en de tool converteert het naar PDF en voert OCR in één stap uit, waardoor een doorzoekbaar PDF wordt geretourneerd. Dit is het meest efficiënte pad als u start vanuit een afbeeldingsbestand in plaats van een bestaande PDF.
Google Drive regelt dit ook in één stap: upload de afbeelding naar Drive, klik er met de rechtermuisknop op en kies Openen met → Google Docs. Drive converteert de afbeelding en voert OCR automatisch uit. Het resultaat is een bewerkbaar Google Docs-document in plaats van een doorzoekbare PDF, maar u kunt het indien nodig daar downloaden als PDF.
Beeldkwaliteit bepaalt of breekt de OCR-nauwkeurigheid
OCR leest pixels: de kwaliteit van het invoerbeeld bepaalt rechtstreeks hoe nauwkeurig de tekst wordt herkend. Een scherpe, contrastrijke foto van een afgedrukt document met een resolutie van 200 DPI of hoger wordt doorgaans met een zeer hoge nauwkeurigheid geconverteerd. Een wazige telefoonfoto die onder een hoek bij weinig licht is gemaakt, zal veel fouten bevatten, ongeacht welke OCR-engine u gebruikt.
Als u een fysiek document fotografeert om een doorzoekbare PDF te maken, verbeteren een paar dingen de resultaten aanzienlijk: vlakke, gelijkmatige verlichting zonder schaduwen over de pagina; de camera direct boven het document in plaats van onder een hoek; en het document plat ligt in plaats van gebogen. Telefoonscan-apps zoals Microsoft Lens en Adobe Scan passen automatische perspectiefcorrectie en contrastverbetering toe vóór OCR, waardoor ze vaak betere resultaten opleveren dan een standaard camerafoto.
De uitvoer controleren
Controleer na de conversie of de OCR werkt door de PDF te openen en Ctrl+F uit te proberen met een woord dat u in het document kunt zien. Als deze wordt gevonden, is de tekstlaag functioneel. Probeer een passage te selecteren en te kopiëren; plak deze in een teksteditor om te controleren of de tekens juist zijn en niet verminkt. Voor documenten die worden gearchiveerd of waarop wordt vertrouwd bij het zoeken, is het controleren van enkele pagina's op OCR-nauwkeurigheid de paar minuten waard die dit kost.
Een PDF-compressie-passage na OCR kan ook helpen de bestandsgrootte te verkleinen. De combinatie van een afbeelding met volledige resolutie en een ingesloten tekstlaag kan grotere bestanden opleveren dan verwacht, vooral bij afbeeldingsscans van meerdere pagina's.
Probeer PDF OCR
Geen installatie nodig. Werkt rechtstreeks in uw browser.
