Pourquoi ne puis-je pas rechercher du texte dans mon PDF ?

Appuyer sur Ctrl+F dans un PDF et ne rien trouver – ou trouver la barre de recherche fonctionne mais ne renvoie aucun résultat, même pour les mots que vous pouvez clairement voir sur la page – est un problème de couche de texte. Le PDF ne contient pas de texte consultable, ce qui signifie que ce que vous regardez est une image plutôt que de vrais caractères. Le correctif est l’OCR, et il est plus rapide que ce à quoi la plupart des gens s’attendent.

Why Can't I Search for Text Inside My PDF?

Pourquoi certains PDF n'ont pas de texte consultable

Un PDF peut contenir deux types de contenu fondamentalement différents. Le premier est le texte réel : des caractères stockés sous forme de données texte qui peuvent être recherchés, sélectionnés et copiés. La seconde concerne les données d’image – une photographie d’une page où les lettres ne sont que des pixels, visuellement impossibles à distinguer du texte réel à l’écran mais structurellement complètement différentes.

Les documents numérisés sont toujours basés sur des images : le scanner photographie la page. Mais même les documents créés numériquement peuvent se retrouver sous forme d'image uniquement s'ils ont été convertis en aplatissant le contenu, exportés à partir de certains logiciels de conception sans préservation du texte ou enregistrés via des flux de travail d'impression en image. Le résultat visuel semble identique ; seule la structure des données sous-jacente est différente.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Comment vérifier si votre PDF possède un calque de texte

Ouvrez le PDF et essayez de cliquer et de faire glisser pour sélectionner un seul mot. Si vous pouvez mettre en surbrillance des mots individuels et que le texte sélectionné apparaît surligné en bleu (ou dans la couleur de sélection de votre spectateur), le PDF possède un véritable calque de texte et doit être consultable. Si cliquer et faire glisser produit une zone de sélection rectangulaire sur l'image de la page plutôt que de mettre en surbrillance des mots spécifiques, le document est basé sur une image.

Un deuxième test : essayez Ctrl+A pour tout sélectionner. Dans un PDF textuel, le texte est mis en surbrillance tout au long du document. Dans un PDF basé sur des images, rien n'est visiblement sélectionné, ou la page entière est sélectionnée comme un seul bloc d'image.

Le correctif : exécuter OCR

L'OCR (reconnaissance optique de caractères) lit l'image et convertit ce qu'elle voit en caractères de texte, ajoutant ainsi un calque de texte au PDF. Après l'OCR, le document est consultable : Ctrl+F trouve les mots, le texte peut être sélectionné et copié et les lecteurs d'écran peuvent interpréter le contenu.

L'outil OCR PDF de WukongPDF gère cela dans le navigateur. Téléchargez le PDF basé sur l'image, exécutez l'OCR et téléchargez la version consultable. L'apparence visuelle du document ne change pas (les pages semblent identiques) mais les données sous-jacentes incluent désormais une couche de texte que les outils de recherche et de sélection peuvent utiliser.

La précision de l'OCR dépend de la qualité de la numérisation originale. Texte noir propre et contrasté sur papier blanc avec des OCR de plus de 200 DPI avec une précision de 98 à 99 %. L'encre délavée, les numérisations à basse résolution, les polices inhabituelles ou l'écriture manuscrite produisent davantage d'erreurs. Pour la plupart des documents professionnels dactylographiés, les résultats OCR sont suffisamment clairs pour être utilisés immédiatement.

Lorsque la recherche ne trouve rien malgré le texte existant

Une situation moins courante : le PDF a un vrai calque de texte, la sélection de texte fonctionne, mais la fonction de recherche ne renvoie toujours aucun résultat. Cela signifie généralement que l'index de recherche de la visionneuse PDF n'a pas encore été créé. Certains visualiseurs créent l'index en arrière-plan après l'ouverture : attendez quelques secondes et réessayez. Si le problème persiste, essayez une autre requête de recherche en utilisant des termes plus simples ou ouvrez le fichier dans une autre visionneuse.

Autre cause : le calque de texte existe mais contient des caractères tronqués en raison de problèmes d'encodage des polices. Si vous essayez de copier une phrase et de la coller ailleurs et qu'elle apparaît sous forme de symboles aléatoires, l'encodage du texte est interrompu. L'OCR résout également ce problème : il reconstruit la couche de texte à partir de zéro en lisant le contenu visuel, en remplaçant l'encodage cassé par le texte correct.

Rendre les futurs PDF toujours consultables

Pour les documents numérisés, l'exécution de l'OCR immédiatement après la numérisation signifie que chaque PDF numérisé est consultable à partir du moment où il est archivé. Certains logiciels de numérisation intègrent l'OCR et l'appliquent automatiquement : activez ce paramètre s'il est disponible. Pour les scanners sans OCR intégré, un passage OCR rapide après numérisation avant le classement ajoute des secondes par document et permet de gagner un temps considérable lorsque vous avez besoin de retrouver quelque chose des semaines ou des mois plus tard.

Pour les documents créés numériquement, assurez-vous d'utiliser une exportation appropriée plutôt qu'une impression sur image. L'exportation directement depuis Word, Google Docs ou toute application professionnelle préserve automatiquement le calque de texte. Le problème de recherche n'apparaît que lorsque le processus d'exportation pixellise le contenu - ce qui se produit généralement avec l'impression vers PDF à l'aide de certains pilotes ou avec des options d'exportation qui aplatissent explicitement le document.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →