Pouvez-vous convertir une image en un PDF consultable ?

La conversion d'une image en un PDF consultable est un processus en deux étapes : d'abord l'image devient un PDF, puis l'OCR ajoute un calque de texte afin que le contenu puisse être recherché et sélectionné. Les deux étapes peuvent être effectuées ensemble dans les outils qui les prennent en charge, ou séparément si vous préférez plus de contrôle sur chaque étape.

Can You Convert an Image to a Searchable PDF?

La différence entre une image standard PDF et une image consultable

Lorsque vous convertissez une image en PDF sans OCR, vous obtenez un PDF qui affiche l'image (vous pouvez l'ouvrir, zoomer, l'imprimer) mais vous ne pouvez pas sélectionner de texte, rechercher des mots ou copier du contenu. Il s'agit essentiellement d'une photo enveloppée dans un conteneur PDF. Un PDF consultable ajoute un calque de texte caché sous l'image, créé par OCR lisant le texte de l'image. L'apparence visuelle est inchangée, mais maintenant Ctrl+F trouve les mots et le texte peut être copié.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Faire les deux étapes en même temps

L'outil OCR PDF de WukongPDF accepte les images directement, et pas seulement les PDF existants. Téléchargez un fichier JPG, PNG ou TIFF et l'outil le convertit en PDF et exécute l'OCR en une seule étape, renvoyant un PDF consultable. Il s'agit du chemin le plus efficace lorsque l'on démarre à partir d'un fichier image plutôt que d'un PDF existant.

Google Drive gère également cela en une seule étape : téléchargez l'image sur Drive, cliquez dessus avec le bouton droit et choisissez Ouvrir avec → Google Docs. Drive convertit l'image et exécute automatiquement l'OCR. Le résultat est un document Google Docs modifiable plutôt qu'un PDF consultable, mais vous pouvez le télécharger au format PDF à partir de là si nécessaire.

La qualité de l'image fait ou défait la précision de l'OCR

L'OCR lit les pixels — la qualité de l'image d'entrée détermine directement la précision avec laquelle le texte est reconnu. Une photographie nette et contrastée d'un document imprimé à 200 DPI ou plus est généralement convertie avec une très grande précision. Une photo de téléphone floue prise sous un angle dans un mauvais éclairage comportera de nombreuses erreurs, quel que soit le moteur OCR que vous utilisez.

Si vous photographiez un document physique pour créer un PDF consultable, quelques éléments améliorent considérablement les résultats : un éclairage plat et uniforme sans ombres sur la page ; la caméra directement au-dessus du document plutôt que selon un angle ; et le document est à plat plutôt que courbé. Les applications de numérisation de téléphone telles que Microsoft Lens et Adobe Scan appliquent une correction automatique de la perspective et une amélioration du contraste avant l'OCR, c'est pourquoi elles produisent souvent de meilleurs résultats qu'une photo d'appareil photo standard.

Vérification de la sortie

Après la conversion, vérifiez que l'OCR a fonctionné en ouvrant le PDF et en essayant Ctrl+F avec un mot que vous pouvez voir dans le document. S'il est trouvé, le calque de texte est fonctionnel. Essayez de sélectionner un passage et de le copier – collez-le dans un éditeur de texte pour confirmer que les caractères sont corrects plutôt que tronqués. Pour les documents qui seront archivés ou utilisés pour la recherche, la vérification ponctuelle de quelques pages pour vérifier l'exactitude de l'OCR vaut les quelques minutes nécessaires.

Une compression PDF après l'OCR peut également aider à réduire la taille du fichier : la combinaison d'une image en pleine résolution et d'une couche de texte intégrée peut produire des fichiers plus volumineux que prévu, en particulier pour les numérisations d'images de plusieurs pages.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →