Pourquoi mon PDF n'est-il pas consultable ?

Un PDF où Ctrl+F ne trouve rien, où vous ne pouvez pas sélectionner ou copier de texte et où cliquer sur le texte dessine une boîte rectangulaire plutôt que de mettre en surbrillance des mots individuels — il s'agit d'un document sans calque de texte. Il est stocké sous forme d'image plutôt que de texte, ce qui signifie que le lecteur peut voir les caractères mais que le logiciel ne peut pas les interpréter comme des caractères.

Pourquoi certains PDF n'ont pas de calque de texte

La raison la plus courante est la numérisation. Lorsqu'un document physique est numérisé et enregistré au format PDF, le résultat est une photographie de la page enveloppée dans un conteneur PDF. Le scanner capture à quoi ressemble le document sous forme d'image, mais ne sait pas quels sont les caractères. Sans étape OCR distincte pour interpréter l’image et ajouter des données textuelles, le PDF est entièrement basé sur l’image.

Autres causes : les PDF exportés à partir de certains logiciels de conception qui traitent tout le contenu comme des graphiques plutôt que de conserver le texte en tant que texte, les PDF dans lesquels le texte a été converti en contours (une technique de conception qui corrige l'apparence visuelle mais détruit le calque de texte) et les PDF créés en photographiant des documents avec un téléphone sans aucune application de numérisation appliquant l'OCR.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Confirmation du problème

Le test le plus rapide : essayez de sélectionner un mot en cliquant dessus et en le faisant glisser. Si des mots ou des caractères individuels sont mis en surbrillance, le PDF possède un calque de texte et peut faire l'objet d'une recherche. Dans ce cas, quelque chose d'autre fait échouer la recherche (voir la section ci-dessous sur les calques de texte brisés). Si la zone entière de la page est sélectionnée sous forme de rectangle, quel que soit l'endroit où vous faites glisser, la page est stockée sous forme d'image sans texte.

Une vérification secondaire : appuyez sur Ctrl+A pour tout sélectionner. Dans un document avec un calque de texte, cela sélectionne tout le texte et vous pouvez le copier. Dans un PDF contenant uniquement des images, Ctrl+A sélectionne la page dans son ensemble : aucun texte n'est placé dans le presse-papiers lorsque vous copiez.

Ajout d'un calque de texte avec OCR

OCR (reconnaissance optique de caractères) lit l'image sur chaque page et ajoute un calque de texte caché contenant les caractères reconnus. L'apparence visuelle du document ne change pas (il ressemble toujours à la numérisation originale) mais le texte devient sélectionnable, copiable et consultable.

L'outil OCR PDF de WukongPDF gère cela dans le navigateur : téléchargez le PDF numérisé, exécutez l'OCR et téléchargez la version consultable. Pour des numérisations nettes et contrastées de texte imprimé standard, la précision est suffisamment élevée pour que la couche de texte résultante soit fiable pour la recherche. Ouvrez le fichier traité et appuyez sur Ctrl+F pour vérifier : la recherche d'un mot qui apparaît clairement dans le document devrait le trouver immédiatement.

Lorsque le calque de texte existe mais que la recherche ne fonctionne toujours pas

Parfois, un PDF contient du texte qui peut être sélectionné mais Ctrl+F ne le trouve toujours pas. Cela se résume généralement à l’une des trois choses suivantes. Premièrement, l'encodage des polices peut être défectueux : le PDF contient des données texte mais la table de mappage des caractères est corrompue, de sorte que le spectateur peut mettre en surbrillance quelque chose mais ne sait pas quels caractères sont lesquels. Deuxièmement, la couche de texte de l'OCR peut contenir des erreurs dans le mot spécifique que vous recherchez. Troisièmement, certains PDF utilisent des caractères Unicode ou des encodages spéciaux qui ne correspondent pas au comportement de recherche standard.

Pour les problèmes d'encodage, l'exécution du PDF via un convertisseur PDF pour extraire et réintégrer le texte résout parfois le problème de mappage des caractères. La conversion vers Word, qui force le texte à passer par une étape de réencodage propre, puis la réexportation vers PDF peut également résoudre les problèmes de recherche causés par un encodage de police corrompu.

Prévenir le problème lors des prochaines analyses

Si vous numérisez régulièrement des documents qui doivent pouvoir être recherchés, intégrez l'OCR au flux de travail de numérisation plutôt que de l'ajouter par la suite. La plupart des logiciels de numérisation modernes disposent d'une option permettant d'appliquer automatiquement l'OCR et d'enregistrer directement un PDF consultable. Les applications de numérisation de téléphones telles que Microsoft Lens, Adobe Scan et la fonction appareil photo de Google Drive appliquent toutes l'OCR par défaut et produisent des PDF consultables dès le début, sans étape de traitement distincte.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →