Vous copiez le texte d'un PDF et le collez ailleurs - et le résultat semble faux. Les caractères sont dans le désordre, les ligatures comme "fi" sont dans le désordre. devenir "fi" ou disparaissent, les mots s'assemblent sans espaces ou les caractères spéciaux se transforment en points d'interrogation. Il s'agit d'un problème d'encodage de texte PDF, et il a des causes spécifiques qui expliquent pourquoi cela se produit et ce qui peut être fait pour y remédier.

Comment PDF stocke le texte et pourquoi cela ne va pas
PDF a été conçu principalement comme un format visuel : il décrit exactement à quoi ressemble une page, pas ce que signifie le texte. L'encodage interne du texte dans un PDF peut être très différent de l'Unicode standard. Certains PDF utilisent des mappages de glyphes personnalisés dans lesquels les codes de caractères stockés en interne ne correspondent pas aux codes de lettres standard. Ainsi, lorsque vous copiez, le presse-papiers reçoit les codes internes plutôt que les caractères que vous voyez.
Un PDF bien construit comprend une table de mappage ToUnicode qui indique au spectateur comment traduire les codes internes en caractères Unicode standard. Lorsque ce tableau est manquant, incomplet ou incorrect, le copier-coller produit des résultats tronqués même si le texte s'affiche parfaitement à l'écran. L'affichage et le texte copiable proviennent de systèmes différents : l'affichage utilise le glyphe visuel, le copier-coller utilise les données textuelles.
Essayez PDF OCR
Aucune installation nécessaire. Fonctionne directement dans votre navigateur.
Ligatures et caractères spéciaux
Les ligatures sont des combinaisons typographiques : "fi", "fl", "ff", "ffi" et "fi". — où deux ou trois caractères sont réunis en un seul glyphe pour des raisons esthétiques. Dans un PDF mal codé, le glyphe de ligature n'a pas de mappage ToUnicode pour les caractères individuels qu'il représente. Une fois copiée, la ligature devient soit un seul caractère spécial (fi au lieu de fi), soit rien, soit un symbole d'espace réservé.
C'est pourquoi la copie à partir de certains PDF rédigés par des professionnels produit du texte avec des lettres manquantes - des mots comme "bureau" ou "bureau". devenir "o ce" parce que le "ffi" la ligature n’avait pas de mappage Unicode utilisable. Le mot semblait correct à l'écran ; les données texte sous-jacentes étaient cassées.
Espaces manquants entre les mots
Certains PDF représentent les espaces non pas comme de véritables caractères d'espacement dans le flux de texte, mais comme des décalages de position : le spectateur affiche un espace entre les mots en déplaçant la position du curseur, et non en insérant un caractère d'espace. Lors de la copie, le décalage de position n'est pas traduit en caractère d'espace, donc les mots s'assemblent : "le mot" ; au lieu de "le mot".
Ceci est courant dans les PDF exportés à partir d'applications de conception comme InDesign ou Illustrator lorsque l'espacement du texte est contrôlé au niveau de la conception plutôt que via l'encodage de texte standard.
Problèmes de colonnes et d'ordre de lecture
Dans un PDF à plusieurs colonnes, l'ordre de lecture visuel (colonne inférieure, puis colonne deux) peut ne pas correspondre à l'ordre interne du texte (de gauche à droite sur toute la largeur de la page). La copie de texte à partir d'une mise en page à deux colonnes produit souvent du texte qui alterne entre les colonnes ligne par ligne, le faisant apparaître brouillé même si chaque mot individuel est correct.
Ce n'est pas un problème d'encodage, c'est un problème d'ordre de lecture. Le texte est correctement codé ; il est simplement stocké dans un ordre qui ne correspond pas à la façon dont un humain le lirait. Le correctif consiste à copier le texte d’une colonne à la fois plutôt que de le sélectionner dans les deux colonnes.
Que faire lorsque le texte copié est tronqué
- Essayez une autre visionneuse PDF : différentes visionneuses gèrent le mappage ToUnicode différemment. Si la copie de Chrome produit du texte tronqué, essayez de copier à partir d'Adobe Reader : elle produit souvent des résultats plus nets pour le même PDF.
- Convertir d'abord en Word : a Le convertisseur PDF en Word retraite l'encodage du texte pendant la conversion. Le document Word résultant produit souvent un copier-coller propre, même si le PDF original ne l'a pas fait.
- Exécuter l'OCR sur une copie : les outils OCR relisent le texte visible à partir des images de la page et créent un nouveau texte correctement codé. Le résultat OCR PDF peut produire un meilleur copier-coller que l'encodage d'origine, en particulier pour une composition professionnelle mal encodée.
- Utilisez Rechercher et amp; Remplacez les erreurs courantes : si la même ligature ou le même caractère est systématiquement collé de manière incorrecte, collez le résultat collé dans Word et utilisez Rechercher & Remplacez pour corriger l’erreur récurrente.
Prévenir le problème à la source
Si vous créez des PDF et souhaitez garantir un comportement de copier-coller propre pour les destinataires, utilisez des applications qui génèrent des mappages ToUnicode corrects. Les exportations Microsoft Word avec le mappage Unicode approprié par défaut. Adobe InDesign peut exporter avec ou sans codage de texte approprié en fonction des paramètres. Dans la boîte de dialogue Exporter PDF, assurez-vous que « Utiliser la structure du document pour l'ordre des tabulations » est sélectionné. et les options d'accessibilité du texte sont activées. Testez le copier-coller à partir du PDF exporté avant de le distribuer pour détecter les problèmes d'encodage avant qu'ils n'atteignent les destinataires.
Essayez PDF OCR
Aucune installation nécessaire. Fonctionne directement dans votre navigateur.
