Qu'est-ce que l'OCR et comment fonctionne-t-il avec les PDF ?

OCR signifie Reconnaissance Optique de Caractères. Il s'agit de la technologie qui lit le texte des images (y compris les documents numérisés, les photographies de pages et les PDF contenant uniquement des images) et convertit ce qu'elle voit en données textuelles réelles que les ordinateurs peuvent traiter. Si vous avez déjà numérisé un document et vous demandez pourquoi vous ne pouvez pas rechercher ou copier le texte, l'OCR est la solution.

What Is OCR and How Does It Work With PDFs?

Le problème résolu par OCR

Lorsque vous numérisez un document, le scanner capture une photographie de la page. Pour un ordinateur, cette photographie n’est que des pixels : des points colorés disposés sur une grille. Les mots que vous pouvez voir dans l'image n'existent pas sous forme de texte du point de vue de l'ordinateur. Il ne peut pas les rechercher, les copier, les traduire ou les lire à haute voix.

L'OCR comble cette lacune. Il analyse les motifs de pixels de l'image, identifie les formes qui correspondent aux lettres et aux chiffres et convertit ces formes en caractères de texte réels. Après le traitement OCR PDF, le document comporte deux calques : l'image d'origine (qui a toujours exactement la même apparence) et un calque de texte masqué que l'ordinateur peut lire, rechercher et traiter.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Comment fonctionne réellement l'OCR

Les systèmes OCR modernes utilisent des modèles d'apprentissage automatique formés sur des millions d'images de documents. Lors du traitement d'une page, le système passe par plusieurs étapes :

Prétraitement de l'image : l'image est nettoyée – redressée si elle est inclinée, le contraste est amélioré, le bruit est réduit. Une image plus nette produit une reconnaissance plus précise.
Analyse de la mise en page : le système identifie la structure de la page : où se trouvent les blocs de texte, où se trouvent les images, l'ordre de lecture, les limites des colonnes, les cellules du tableau.
Reconnaissance de caractères : le modèle analyse chaque forme de caractère et attribue la lettre, le chiffre ou le symbole le plus probable. Il prend en compte le contexte - « l » ; est plus susceptible d'être "le" — pour améliorer la précision.
Création d'une couche de texte : les caractères reconnus sont assemblés en mots et en phrases, positionnés pour s'aligner sur l'image originale et intégrés dans le PDF en tant que couche de texte consultable.

Qu'est-ce qui affecte la précision de l'OCR

La précision de l'OCR varie considérablement en fonction de la qualité de l'image source et du contenu reconnu :

Résolution de numérisation : DPI plus élevé produit des bords de caractères plus nets et une meilleure reconnaissance. 300 DPI est le minimum recommandé pour une OCR fiable. Les images inférieures à 150 DPI produisent souvent des erreurs importantes.
Type de police : les polices imprimées standard dans les polices de caractères courantes (Times, Arial, Helvetica) sont reconnues avec une grande précision. Les polices décoratives, les polices inhabituelles et les textes très petits produisent davantage d’erreurs.
État du document : papier jauni, décoloration de l'encre, taches, numérisation asymétrique et ombres dégradent tous la qualité de la reconnaissance. Une numérisation nette, droite et à contraste élevé produit les meilleurs résultats.
Langue : langues communes (anglais, espagnol, français, allemand, chinois, japonais) disposent de données de formation étendues et d'une grande précision. Les langages et scripts moins courants peuvent contenir davantage d'erreurs.
Écriture manuscrite : OCR sur le texte imprimé est très précis. La reconnaissance de l’écriture manuscrite est un problème différent et plus difficile : la précision varie considérablement selon le style d’écriture et le modèle spécifique utilisé.

À quoi ressemble le résultat

Après l'OCR, le PDF semble identique à avant : l'image numérisée d'origine est inchangée. La différence est invisible à l’œil nu mais significative en termes de fonctionnalité. Le document comporte désormais un calque de texte masqué aligné avec l'image. Lorsque vous recherchez un mot, le spectateur le trouve dans le calque de texte et le met en surbrillance dans l'image. Lorsque vous sélectionnez et copiez du texte, vous copiez à partir du calque de texte. Lorsqu'un lecteur d'écran annonce du contenu, il lit la couche de texte.

Le calque d'image et le calque de texte sont séparés : l'OCR ne modifie en aucun cas la numérisation originale. Si l'OCR a commis des erreurs, l'image affiche toujours le texte original correct ; seul le calque de texte masqué contient l'erreur.

Comment appliquer l'OCR à un PDF

L'outil OCR PDF de WukongPDF sur www.wukongpdf.com gère cela sans avoir besoin d'un logiciel de bureau : téléchargez le PDF numérisé, sélectionnez la langue du document pour une meilleure précision, traitez et téléchargez le résultat consultable. L'opération prend généralement 10 à 30 secondes pour un document standard.

Adobe Acrobat Pro dispose d'une fonction OCR intégrée (Outils > Améliorer les numérisations > Reconnaître le texte) avec des options supplémentaires pour contrôler la qualité de la reconnaissance et gérer les documents de plusieurs pages. Pour les organisations traitant de gros volumes de documents numérisés, la fonctionnalité OCR par lots d'Acrobat traite automatiquement des dossiers entiers de fichiers.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →