Kunt u een PDF OCRen in Google Drive?

Google Drive bevat ingebouwde OCR die automatisch wordt uitgevoerd wanneer u een gescande PDF opent met Google Docs. Het is gratis, vereist geen extra software en werkt goed genoeg voor de meeste gangbare documenten. Er zijn beperkingen die de moeite waard zijn om te weten, maar voor eenvoudig gescande tekst wordt de taak betrouwbaar afgehandeld.

Hoe het te doen

Upload de gescande PDF naar Google Drive. Eenmaal geüpload, klikt u met de rechtermuisknop op het bestand en kiest u Openen met → Google Documenten. Drive voert OCR automatisch uit tijdens de conversie en opent het resultaat als een bewerkbaar Google Docs-document. De originele PDF blijft ongewijzigd in Drive; Google maakt er een nieuw Documenten-bestand naast.

Het geconverteerde document bevat de herkende tekst in het bovenste gedeelte, gevolgd door een afbeelding van elke originele pagina eronder. Met deze tweelaagse aanpak kunt u zien wat Google heeft herkend en wat de oorspronkelijke pagina daadwerkelijk zegt. Dit is handig om OCR-fouten op te sporen door de twee naast elkaar te vergelijken.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →

Wat het goed doet

Voor zuivere scans met hoog contrast van standaardgedrukte tekst in veelgebruikte talen is de OCR van Google Drive nauwkeurig. Een professioneel gedrukt document dat is gescand met 200 DPI of hoger, converteert doorgaans met zeer weinig fouten. Het verwerkt meerdere talen en kan vaak gemengde documenten herkennen zonder enige speciale configuratie.

De uitvoer is direct bewerkbaar in Google Docs, wat handig is als je wijzigingen in de tekst moet aanbrengen. Vanuit Documenten kunt u indien nodig ook terug exporteren naar PDF (Bestand → Downloaden → PDF Document) of naar Word-formaat.

Waar het tekortschiet

De OCR van Google Drive behoudt de oorspronkelijke documentindeling niet. Tabellen komen over als platte tekst, opmaak met meerdere kolommen wordt gelineariseerd en alle complexe opmaak gaat verloren. De herkende tekst bestaat uit gewone alinea's; visueel lijkt het in niets op het brondocument.

Voor documenten waarvan u de lay-out wilt behouden (een formulier dat u opnieuw distribueert, een rapport dat het oorspronkelijke ontwerp moet behouden) biedt Google Drive OCR u de tekstinhoud, maar moet u de opmaak handmatig opnieuw toepassen. Voor documenten waarbij u alleen de tekstinhoud nodig heeft om gegevens uit te zoeken, te bewerken of te extraheren, doet het gebrek aan opmaak er niet toe.

Scans van lage kwaliteit, vervaagde tekst, handschrift en ongebruikelijke lettertypen veroorzaken merkbaar meer fouten. CJK-tekens (Chinees, Japans, Koreaans) zijn over het algemeen verbeterd in de OCR-engine van Google, maar blijven nog steeds achter bij de nauwkeurigheid van het Latijnse schrift voor complexe tekst.

Wanneer een speciale OCR-tool beter is

Als u OCR-uitvoer nodig heeft die in de indeling PDF blijft (een doorzoekbare PDF in plaats van een Google-document), is Google Drive niet het juiste hulpmiddel. Het wordt geconverteerd naar een Docs-bestand, niet terug naar een PDF met een tekstlaag. Daarvoor verwerkt de tool OCR PDF van WukongPDF de scan en retourneert een PDF waarin de tekst selecteerbaar en doorzoekbaar is, terwijl de visuele weergave van het originele document behouden blijft. Dit is over het algemeen wat mensen bedoelen als ze zeggen dat ze "OCR een PDF" willen maken. — ze willen hetzelfde document terug, alleen met herkenbare tekst in plaats van een afbeelding.

Voor bulk-OCR van veel documenten, of voor documenten waarbij nauwkeurigheid bij moeilijke inhoud van belang is, levert speciale OCR-software zoals ABBYY FineReader betere resultaten op dan Google Drive, ten koste van het feit dat het een betaald product is. Voor de dagelijkse gratis OCR van schone gescande documenten kan Google Drive dit zo goed aan dat de meeste mensen niets anders nodig hebben.

Probeer PDF OCR

Geen installatie nodig. Werkt rechtstreeks in uw browser.

Nu beginnen →