La seule copie d'un contrat d'il y a trois ans est un PDF qui s'ouvre désormais sur un message d'erreur. Un rapport de recherche téléchargé à partir d’un site Web aujourd’hui disparu n’affichera rien au-delà de la quatrième page. L'accord signé par un client a été stocké sur un disque présentant des erreurs et le fichier récupéré est partiellement corrompu. Ces situations sont stressantes, mais elles ne sont pas toujours désespérées. La récupération de texte à partir de PDF endommagés est possible plus souvent que prévu – la question est de savoir quelle approche essayer en premier.

Comprendre à quel type de dommages vous faites face
Tous les dommages PDF ne sont pas identiques et l'approche de récupération dépend de ce qui n'a pas fonctionné. Quelques observations rapides vous en disent long :
- Le fichier ne s'ouvre pas du tout : l'en-tête du fichier ou la structure interne est endommagé. Un outil de réparation doit reconstruire la structure du fichier avant de pouvoir accéder à tout contenu.
- Le fichier s'ouvre mais certaines pages sont vierges ou manquantes : corruption partielle — la structure du fichier est intacte mais certains objets de contenu sont endommagés ou manquants. La récupération peut récupérer les parties non corrompues.
- Le texte s'affiche sous forme de symboles ou de caractères tronqués : corruption de l'encodage de la police. Les données textuelles peuvent être intactes mais le mappage entre les caractères et les glyphes est rompu.
- Le fichier est très petit (quelques Ko alors qu'il devrait être beaucoup plus volumineux) : téléchargement ou transfert incomplet. Le fichier n'a jamais été entièrement reçu : obtenir une nouvelle copie à partir de la source est le correctif, pas la réparation.
Essayez de réparer PDF
Aucune installation nécessaire. Fonctionne directement dans votre navigateur.
Essayez une autre visionneuse PDF avant toute autre chose
Certains fichiers qui échouent dans une visionneuse s'ouvrent avec succès dans une autre. Adobe Reader, la visionneuse PDF intégrée à Chrome, Apple Preview, Foxit et Sumatra PDF utilisent tous des moteurs de rendu différents. Un fichier qu'un moteur ne peut pas analyser peut se trouver dans la tolérance de récupération d'un autre.
Si un spectateur ouvre le fichier – même partiellement – essayez immédiatement de copier tout le texte visible (Ctrl+A puis Ctrl+C) et collez-le dans un document Word. Cela capture tout le texte accessible dans l'état actuel du fichier, que la structure du fichier soit ou non récupérable. Une extraction de texte imparfaite vaut mieux que rien, et elle peut capturer la majeure partie du contenu même à partir d'un fichier considérablement endommagé.
Utiliser un outil de réparation PDF
Un outil Repair PDF dédié tente de reconstruire la structure interne du fichier en analysant le fichier endommagé à la recherche d'objets de contenu récupérables (flux de texte, images, définitions de page) et en reconstruisant un PDF valide à partir de tout ce qu'il peut trouver. Ceci est différent de la simple ouverture du fichier ; les outils de réparation recherchent et contournent spécifiquement les dommages structurels.
L'outil de réparation de WukongPDF sur www.wukongpdf.com gère cela : téléchargez le fichier endommagé, laissez le processus de réparation s'exécuter et téléchargez tout ce qui était récupérable. Pour les fichiers partiellement corrompus dont la plupart du contenu est intact mais dont la structure du fichier est brisée, cela produit souvent un PDF entièrement lisible. Pour les fichiers fortement endommagés, il peut récupérer des parties du contenu. Le résultat dépend de la quantité de données sous-jacentes qui a survécu aux dommages.
Extraire le texte directement à partir des données du fichier
Les fichiers PDF stockent le texte dans des flux au sein de la structure du fichier. Même lorsque la structure PDF est trop endommagée pour qu'un spectateur puisse restituer le document, les flux de texte peuvent toujours être intacts et lisibles avec les bons outils. Pour les utilisateurs techniquement compétents, l'ouverture du PDF dans un éditeur de texte (et non dans une visionneuse PDF) peut révéler un contenu textuel lisible intégré dans les données brutes du fichier - recherchez des chaînes de caractères lisibles parmi le contenu binaire.
Les outils de ligne de commande comme pdftotext (qui fait partie du package poppler) peuvent extraire du texte à partir de PDF qui ne s'ouvriront pas dans les visionneuses standard. L'exécution de pdftotext sur un fichier endommagé récupère parfois un contenu textuel substantiel, même lorsque le rendu visuel échoue complètement. Cette approche nécessite une certaine aisance avec les outils de ligne de commande mais peut accéder au contenu qui manque aux outils GUI.
Cas particulier : PDFs numérisés endommagés
Les PDF numérisés stockent le contenu sous forme d'images plutôt que de texte. Si les données d'image d'un PDF numérisé sont endommagées, les outils d'extraction de texte ne seront d'aucune aide : il n'y a pas de calque de texte à extraire. Le contenu récupérable est constitué des données d'image elles-mêmes.
Pour les PDF numérisés partiellement endommagés, un outil de réparation qui récupère les objets image peut produire un document visible même si la structure du fichier est rompue. Après la réparation, l'exécution de l'OCR sur le document récupéré convertit le contenu de l'image en texte consultable, rendant la version récupérée plus utile que l'analyse originale non consultable.
Ce que la récupération peut et ne peut pas faire
La récupération de texte à partir de PDF endommagés n'est pas garantie. Le taux de réussite dépend du type et de l’étendue des dégâts :
- Corruption structurelle avec contenu intact : taux de récupération élevé – le contenu est là, le fichier ne peut tout simplement pas le présenter correctement
- Dommages partiels au contenu : récupération partielle – certaines pages ou sections récupérables, d'autres perdues
- Secteurs de stockage écrasés : récupération faible ou inexistante – si les données sous-jacentes ont été écrasées, aucun outil ne peut les recréer
- Téléchargement incomplet (le fichier est juste tronqué) : obtenez une nouvelle copie plutôt que de tenter une réparation
La leçon pour l’avenir : pour tout document important, conservez plusieurs copies à différents endroits. Une sauvegarde sur un autre disque, une copie dans le stockage cloud, un e-mail adressé à vous-même : chacun d'entre eux fournit un chemin de récupération qui rend les outils de réparation PDF inutiles. Le meilleur scénario Repair PDF est celui que vous n’avez jamais besoin d’utiliser.
Essayez de réparer PDF
Aucune installation nécessaire. Fonctionne directement dans votre navigateur.
