Others

Pourquoi ne puis-je pas copier le texte de mon PDF ?

Il existe trois raisons complètement différentes pour lesquelles le texte n'est pas copié à partir d'un PDF, et chacune a une solution différente. L’approche qui résout l’un n’aidera pas les autres, donc diagnostiquer la situation dans laquelle vous vous trouvez évite beaucoup de frustration.

Why Can't I Copy Text From My PDF?

Raison 1 : Le PDF est une image numérisée

C'est la cause la plus courante. Lorsque vous numérisez un document physique, le scanner photographie la page et enregistre cette photographie dans un conteneur PDF. Le texte que vous voyez à l'écran fait partie d'une image (des pixels disposés pour ressembler à des lettres) et non de véritables caractères de texte qui peuvent être sélectionnés ou copiés. Cliquer dessus, c'est comme essayer de copier le texte d'une photographie.

Test rapide : essayez de cliquer et de faire glisser pour mettre en évidence un seul mot. Si vous pouvez mettre en surbrillance des mots ou des lettres individuels, le fichier contient du vrai texte. Si votre curseur se comporte comme si vous sélectionniez un rectangle d'image et que vous ne pouvez saisir qu'une boîte de contenu de page, il s'agit d'une image numérisée.

Le correctif est l’OCR – reconnaissance optique de caractères. Le logiciel OCR analyse l'image, identifie le texte et ajoute un véritable calque de texte au PDF qui peut être recherché, sélectionné et copié. Une fois l'OCR exécuté, le document semble identique mais se comporte comme un PDF normal. L'outil OCR PDF de WukongPDF effectue cette opération dans le navigateur : téléchargez le PDF numérisé, traitez-le et téléchargez une version consultable.

WukongPDF

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Raison 2 : la copie est restreinte par le propriétaire du document

PDF dispose d'un système d'autorisation qui permet aux créateurs de restreindre ce que les lecteurs peuvent faire avec un document. L'une de ces restrictions est la copie : le propriétaire peut autoriser la lecture mais bloquer la sélection et la copie de texte. Si cette restriction est définie, vous pouvez voir et lire le texte à l'écran, mais lorsque vous essayez de le sélectionner, rien n'est mis en évidence, ou lorsque vous collez, rien ne ressort.

Vous pouvez vérifier si tel est le cas : dans la plupart des visionneuses PDF, accédez à Fichier → Propriétés ou Propriétés du document, puis regardez l'onglet Sécurité ou Autorisations. Il listera ce qui est autorisé et restreint. Si la « Copie de contenu » s'affiche comme Non autorisé, la restriction de copie est active.

La possibilité de supprimer cette restriction dépend du fait que vous disposez ou non du mot de passe. S'il s'agit de votre propre document et que vous vous souvenez du mot de passe, n'importe quel éditeur PDF vous permettra de l'ouvrir avec le mot de passe et de supprimer les restrictions. S'il s'agit d'un document que quelqu'un d'autre vous a envoyé et dont la copie a été intentionnellement restreinte, vous devrez lui demander d'envoyer une version sans restriction.

Raison 3 : Le texte est copié mais ressort tronqué

Parfois, la copie fonctionne techniquement, mais ce que vous collez n'est que des déchets : des caractères aléatoires, des symboles ou du texte dans le mauvais ordre. Il s'agit d'un problème d'encodage de police. Certains PDF utilisent des polices personnalisées ou intégrées avec des mappages de caractères non standard. La visionneuse PDF peut restituer le texte visuellement à l'aide de la police, mais lorsque vous essayez de copier les codes de caractères sous-jacents, ils ne correspondent pas aux lettres que vous voyez.

Cela se produit le plus souvent avec des PDF plus anciens, des documents créés à partir de certains logiciels de conception ou des fichiers utilisant un codage de police inhabituel. La seule solution fiable consiste à exécuter l'OCR sur le document, qui relit le contenu visuel et crée un nouveau calque de texte correct. Cela remplace l'encodage cassé par un texte propre et copiable.

Lorsque le texte est copié mais présente des problèmes de formatage

Un problème légèrement différent : le texte est copié correctement mais apparaît avec des sauts de ligne incorrects, des mots fusionnés ou des espaces manquants. Il s'agit d'un comportement normal avec l'extraction de texte PDF. Les PDF stockent le texte sous forme de caractères positionnés sur une page, et non sous forme de paragraphes fluides comme le fait un document Word. Lorsque vous copiez une colonne de texte ou une mise en page multi-colonnes, l'extracteur ne sait pas toujours où se termine une ligne et où commence une autre.

Pour de petites quantités de texte, le nettoyage manuel est généralement la solution la plus rapide. Pour les gros volumes (extraction du contenu d'un rapport entier, par exemple), la conversion du PDF en Word à l'aide d'un outil de conversion PDF donne un résultat plus propre que le copier-coller, car le processus de conversion tente de préserver la structure du document plutôt que d'extraire les positions brutes des caractères.

Comment choisir la bonne solution

Faites correspondre le correctif au diagnostic :

  • Impossible de sélectionner du texte, le curseur se comporte comme une image → Exécuter l'OCR
  • Le texte est sélectionnable à l'écran mais ne sera pas collé → Vérifiez les autorisations du document, contactez l'expéditeur en cas de restriction
  • Coller sous forme de caractères tronqués → Exécuter l'OCR pour reconstruire le calque de texte
  • Copie correctement mais a un mauvais formatage → Convertir en Word pour les extractions volumineuses, nettoyer manuellement pour les petites

La méthode OCR résout trois des quatre cas, c'est pourquoi c'est généralement la première chose à essayer si vous n'êtes pas sûr de ce qui se passe. Un PDF numérisé qui a subi l'OCR se comporte comme n'importe quel document texte normal : entièrement consultable, sélectionnable et copiable.

WukongPDF

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →