Pourquoi la copie de texte à partir d'un PDF ajoute-t-elle des sauts de ligne supplémentaires ?

Vous copiez un paragraphe à partir d'un PDF et le collez ailleurs, et chaque ligne se termine par un retour brutal - le texte ne se redistribue pas, il se brise simplement là où la ligne se termine sur la page. Il s’agit de l’un des désagréments PDF les plus courants, et il a une cause technique spécifique qui explique pourquoi cela se produit et ce que vous pouvez faire pour y remédier.

Why Does Copying Text From a PDF Add Extra Line Breaks?

Pourquoi cela se produit : Comment PDF stocke le texte

Un PDF ne stocke pas le texte sous forme de paragraphes comme le font Word ou Google Docs. Au lieu de cela, il stocke des caractères individuels ou de petits groupes de caractères, chacun avec une position spécifique sur la page – des coordonnées X et Y qui placent chaque morceau de texte exactement là où il doit apparaître. Le moteur de rendu PDF dessine ces pièces positionnées pour produire le résultat visuel que vous voyez.

Lorsque vous copiez du texte, la visionneuse PDF doit reconstruire le flux de texte à partir de ces fragments positionnés. Il lit les caractères dans l'ordre et doit deviner où se termine une ligne et où commence une autre en fonction des changements de position verticale. Lorsqu'il détecte un saut de ligne (un saut en position Y), il insère un caractère de saut de ligne. Le résultat est que chaque ligne visuelle du PDF devient une ligne distincte dans le texte collé.

Il s'agit d'une caractéristique fondamentale du fonctionnement de l'extraction de texte PDF, et non d'un bug dans un visualiseur spécifique. Certains PDF incluent des informations structurelles qui aident les téléspectateurs à faire la distinction entre les retours à la ligne doux (dans un paragraphe) et les sauts de paragraphe stricts, mais beaucoup ne le font pas, en particulier les PDF plus anciens ou ceux exportés à partir de certains logiciels.

Essayez de modifier PDF

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Quand c'est pire : mises en page multicolonnes

Les mises en page à plusieurs colonnes aggravent encore ce problème. Lorsque le texte s'étend sur deux ou trois colonnes, la visionneuse PDF extrayant le texte de gauche à droite et de haut en bas entrelace souvent le texte de différentes colonnes : une ligne de la colonne de gauche, puis une ligne de la colonne de droite, puis la ligne suivante de la gauche. La pâte obtenue est brouillée et nécessite un nettoyage manuel important.

Les articles académiques au format deux colonnes sont connus pour cela. Copier un paragraphe à partir d'un document de recherche PDF produit souvent des fragments alternés des deux colonnes plutôt qu'un bloc de texte propre à une seule colonne.

Corrections rapides pour de petites quantités de texte

Pour quelques paragraphes, la solution la plus rapide consiste à rechercher et remplacer dans votre éditeur de texte ou votre traitement de texte après le collage. Vous souhaitez remplacer les sauts de ligne simples (qui sont ceux indésirables dans les paragraphes) tout en conservant les sauts de ligne doubles (qui séparent les véritables paragraphes).

Dans Microsoft Word, utilisez Rechercher & Remplacer par des caractères génériques : remplacez les marques de paragraphe simples (^p) qui ne sont pas suivies par une autre marque de paragraphe, en les remplaçant par un espace. Dans un éditeur de texte brut, la plupart des outils de recherche et de remplacement vous permettent d'utiliser des expressions régulières pour faire de même. Cela réduit un collage brisé de 30 lignes à un paragraphe correctement redistribué en quelques secondes.

De meilleures approches pour de grandes quantités de texte

Pour extraire de grandes quantités de texte d’un PDF, le copier-coller n’est pas le bon outil. La conversion du PDF en Word à l'aide d'un convertisseur PDF produit de meilleurs résultats car le processus de conversion tente de reconstruire la structure du document (en identifiant les paragraphes, les titres et la mise en page) plutôt que de simplement extraire les positions brutes des caractères.

Le document Word converti doit encore être révisé, en particulier pour les mises en page complexes, mais la structure des paragraphes est généralement intacte et vous n'avez pas affaire à des sauts de ligne dans l'ensemble du document.

Améliorations spécifiques à la visionneuse

Certains visualiseurs PDF gèrent mieux l’extraction de texte que d’autres. Adobe Acrobat Reader dispose d'une fonction "Copie avec mise en forme". option qui fait un meilleur travail de reconstruction de paragraphes que la copie de base. Si vous extrayez régulièrement du texte, tester différentes visionneuses sur le même PDF en trouve parfois une qui produit une sortie plus nette.

En fin de compte, la qualité de l'extraction du texte dépend de la manière dont le PDF a été créé. Un PDF bien structuré exporté à partir d'un traitement de texte moderne avec un balisage de paragraphe approprié extrait proprement. Un PDF qui a été imprimé dans un fichier, converti à partir d'une image ou exporté à partir d'un logiciel qui n'intègre pas d'informations structurelles produira toujours du texte cassé lors de la copie. Pour ces fichiers, la conversion vers Word est le chemin fiable.

Essayez de modifier PDF

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →