Tekst selecteerbaar maken in een gescande PDF

Een gescande PDF toont tekst die u met uw ogen kunt lezen, maar niet kunt klikken, selecteren, kopiëren of zoeken. Dit komt omdat de "tekst" is eigenlijk een foto: pixels die zo zijn gerangschikt dat ze op letters lijken. Om tekst selecteerbaar te maken, is OCR nodig, die de afbeelding leest en een echte tekstlaag aan het document toevoegt. Na OCR ziet de PDF er identiek uit, maar wordt de tekst kopieerbaar, doorzoekbaar en toegankelijk.

How to Make Text Selectable in a Scanned PDF

Wat OCR doet met een gescande PDF

OCR (Optical Character Recognition) analyseert de pixelpatronen in elke paginaafbeelding, identificeert vormen die overeenkomen met letters en cijfers en creëert een verborgen tekstlaag die is gepositioneerd om uit te lijnen met de zichtbare tekens. Na verwerking van OCR PDF bestaat het document uit twee lagen: de originele scanafbeelding (ongewijzigd, nog steeds zichtbaar) en een tekstlaag eronder die kijkers gebruiken wanneer u selecteert of zoekt.

Het visuele uiterlijk van het document verandert niet; de scan ziet er voor en na OCR identiek uit. Wat verandert is de functionaliteit van het document: tekst wordt teken voor teken selecteerbaar, Ctrl+F zoeken werkt, kopiëren en plakken levert echte tekst op in plaats van niets, en schermlezers kunnen de inhoud voorlezen.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

De OCR-tool van WukongPDF gebruiken

WukongPDF op www.wukongpdf.com verzorgt de OCR in de browser zonder software-installatie. Upload de gescande PDF, selecteer de documenttaal voor een betere herkenningsnauwkeurigheid, verwerk en download het doorzoekbare resultaat. Het geconverteerde bestand is een standaard PDF met een tekstlaag — compatibel met elke PDF-viewer.

Na het downloaden meteen testen: open de PDF, druk op Ctrl+F en zoek naar een woord dat u op de eerste pagina ziet. Als het het vindt, werkte de OCR. Probeer een zin te selecteren en te kopiëren. De geplakte tekst moet overeenkomen met wat u ziet. Als er niets wordt gevonden of de gekopieerde tekst er verkeerd uitziet, had de OCR nauwkeurigheidsproblemen, waarschijnlijk als gevolg van de scankwaliteit.

Verbeterde scans van Adobe Acrobat

Adobe Acrobat Pro en Acrobat Standard bevatten een speciale OCR-functie genaamd Enhance Scans. Open de gescande PDF, ga naar Extra > Verbeter scans > Herken tekst > In dit bestand. Stel de documenttaal in en klik op Tekst herkennen. Acrobat verwerkt de pagina's en voegt de tekstlaag toe. Bij documenten met meerdere pagina's verwerkt Acrobat alle pagina's in één handeling.

Acrobat biedt ook een optie "Doorzoekbaar maken" optie die enigszins verschilt van volledige OCR: het voegt een tekstlaag toe zonder te proberen de documentstructuur te reconstrueren. Voor de meeste doeleinden verdient de standaardoptie Tekst herkennen de voorkeur, omdat deze een goed gestructureerde Gescande PDF produceert met nauwkeurige tekstpositionering.

Wat beïnvloedt de OCR-nauwkeurigheid

De nauwkeurigheid van de OCR is rechtstreeks gekoppeld aan de scankwaliteit. Hetzelfde document dat goed wordt gescand, levert vrijwel perfecte resultaten op; Slecht gescand materiaal levert fouten op die handmatige correctie vereisen.

Resolutie: 300 DPI is het minimum voor betrouwbare OCR. Onder de 200 DPI kunt u frequente fouten verwachten, vooral bij kleine tekst. 600 DPI verbetert de nauwkeurigheid, maar produceert grote bestanden.
Contrast: heldere zwarte tekst op witpapierscans met vrijwel perfecte nauwkeurigheid. Vervaagde inkt, gekleurd papier of een laag contrast veroorzaken meer fouten.
Schuin: pagina's die onder een aanzienlijke hoek worden gescand, produceren meer fouten. Moderne OCR-tools omvatten rechtzetten om lichte scheeftrekkingen te corrigeren, maar ernstige hoeken verminderen de nauwkeurigheid.
Lettertype: standaard gedrukte lettertypen in gangbare lettertypen (Times, Arial, Helvetica) worden nauwkeurig herkend. Decoratieve, handgeschreven of zeer kleine lettertypen veroorzaken meer fouten.

Na OCR: beoordelen voordat u op de tekst vertrouwt

OCR is niet perfect; zelfs scans van hoge kwaliteit veroorzaken zo nu en dan herkenningsfouten. Veelgemaakte fouten zijn onder meer het verwarren van 0 met O, 1 met l, rn met m, en het verkeerd lezen van tekens nabij de paginaranden. Voor een document waarbij nauwkeurigheid belangrijk is (een contract, een financieel overzicht, een juridisch dossier) moet u de OCR-uitvoer vergelijken met het origineel voordat u erop vertrouwt.

In Acrobat Pro wordt de functie Zoeken & De functie Vervangen kan helpen om veelvoorkomende OCR-fouten systematisch op te sporen. Zoeken naar "0" en controleer elk resultaat om te zien of er een "O" moet zijn, of omgekeerd. Voor cruciale documenten is een volledige proeflezing van de originele scan de enige manier om nauwkeurigheid te garanderen. Voor algemeen naslagwerk – een archief doorzoekbaar maken, tekst extraheren voor analyse – is een snelle controle meestal voldoende.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →