Wat is OCR en hoe werkt het met PDFs?

OCR staat voor Optical Character Recognition. Het is de technologie die tekst uit afbeeldingen leest (inclusief gescande documenten, foto's van pagina's en alleen-afbeeldingen PDFs) en wat de tekst ziet omzet in daadwerkelijke tekstgegevens die computers kunnen verwerken. Als u ooit een document heeft gescand en u zich afvroeg waarom u de tekst niet kunt zoeken of kopiëren, is OCR de oplossing.

What Is OCR and How Does It Work With PDFs?

Het probleem dat OCR oplost

Wanneer u een document scant, maakt de scanner een foto van de pagina. Voor een computer bestaat deze foto uit slechts pixels: gekleurde stippen gerangschikt op een raster. De woorden die u in de afbeelding kunt zien, bestaan vanuit het perspectief van de computer niet als tekst. Het kan ze niet doorzoeken, kopiëren, vertalen of voorlezen.

OCR overbrugt deze kloof. Het analyseert de pixelpatronen in de afbeelding, identificeert vormen die overeenkomen met letters en cijfers, en zet deze vormen om in daadwerkelijke teksttekens. Na verwerking met OCR PDF bestaat het document uit twee lagen: de originele afbeelding (die er nog steeds precies hetzelfde uitziet) en een verborgen tekstlaag die de computer kan lezen, doorzoeken en verwerken.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

Hoe OCR eigenlijk werkt

Moderne OCR-systemen maken gebruik van machine learning-modellen die zijn getraind op miljoenen documentafbeeldingen. Bij het verwerken van een pagina doorloopt het systeem verschillende fasen:

Beeldvoorbewerking: de afbeelding wordt opgeschoond: rechtgetrokken als deze scheef is, het contrast wordt verbeterd en de ruis wordt verminderd. Een schoner beeld zorgt voor een nauwkeurigere herkenning.
Lay-outanalyse: het systeem identificeert de structuur van de pagina: waar tekstblokken staan, waar afbeeldingen staan, de leesvolgorde, kolomgrenzen, tabelcellen.
Karakterherkenning: het model analyseert elke tekenvorm en wijst de meest waarschijnlijke letter, cijfer of symbool toe. Het houdt rekening met de context – "de" is waarschijnlijker "de" — om de nauwkeurigheid te verbeteren.
Tekstlaag maken: de herkende tekens worden samengevoegd tot woorden en zinnen, gepositioneerd om uit te lijnen met de originele afbeelding, en ingebed in de PDF als een doorzoekbare tekstlaag.

Wat beïnvloedt de OCR-nauwkeurigheid

De nauwkeurigheid van de OCR varieert aanzienlijk, afhankelijk van de kwaliteit van de bronafbeelding en de inhoud die wordt herkend:

Scanresolutie: hogere DPI produceert schonere karakterranden en betere herkenning. 300 DPI is het aanbevolen minimum voor betrouwbare OCR. Afbeeldingen onder de 150 DPI produceren vaak aanzienlijke fouten.
Lettertype: standaard gedrukte lettertypen in gangbare lettertypen (Times, Arial, Helvetica) worden met hoge nauwkeurigheid herkend. Decoratieve lettertypen, ongebruikelijke lettertypen en zeer kleine tekst veroorzaken meer fouten.
Conditie document: vergeeld papier, vervaging van de inkt, vlekken, scheef scannen en schaduwen verminderen allemaal de herkenningskwaliteit. Een zuivere, rechte scan met hoog contrast levert de beste resultaten op.
Taal: gewone talen (Engels, Spaans, Frans, Duits, Chinees, Japans) beschikken over uitgebreide trainingsgegevens en een hoge nauwkeurigheid. Minder gebruikelijke talen en scripts kunnen meer fouten bevatten.
Handschrift: OCR op afgedrukte tekst is zeer nauwkeurig. Handschriftherkenning is een ander en moeilijker probleem; de nauwkeurigheid varieert dramatisch afhankelijk van de handschriftstijl en het specifieke gebruikte model.

Hoe het resultaat eruit ziet

Na OCR ziet de PDF er identiek uit als voorheen; de originele scanafbeelding is ongewijzigd. Het verschil is onzichtbaar voor het oog, maar significant in functie. Het document heeft nu een verborgen tekstlaag die is uitgelijnd met de afbeelding. Wanneer u naar een woord zoekt, vindt de kijker het in de tekstlaag en markeert het in de afbeelding. Wanneer u tekst selecteert en kopieert, kopieert u vanuit de tekstlaag. Wanneer een schermlezer inhoud aankondigt, leest deze de tekstlaag.

De afbeeldingslaag en tekstlaag zijn gescheiden; OCR verandert op geen enkele manier de originele scan. Als er bij de OCR fouten zijn gemaakt, toont de afbeelding nog steeds de juiste originele tekst; alleen de verborgen tekstlaag bevat de fout.

OCR toepassen op een PDF

De OCR PDF-tool van WukongPDF op www.wukongpdf.com regelt dit zonder dat je desktopsoftware nodig hebt: upload de gescande PDF, selecteer de documenttaal voor betere nauwkeurigheid, verwerk en download het doorzoekbare resultaat. De bewerking duurt doorgaans 10-30 seconden voor een standaarddocument.

Adobe Acrobat Pro heeft een ingebouwde OCR-functie (Tools > Scans verbeteren > Tekst herkennen) met extra opties voor het controleren van de herkenningskwaliteit en het verwerken van documenten met meerdere pagina's. Voor organisaties die grote hoeveelheden gescande documenten verwerken, verwerkt de batch-OCR-functie van Acrobat automatisch volledige mappen met bestanden.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →