Un PDF est-il identique à un document numérisé ?

Les gens utilisent souvent "PDF" et "document numérisé" de manière interchangeable - en particulier dans les bureaux où quelqu'un dit "il suffit de le numériser et d'envoyer un PDF". Mais un PDF et un document numérisé ne sont pas la même chose, et la confusion des deux provoque une réelle confusion. Une numérisation peut être enregistrée au format PDF, mais tous les PDF ne sont pas des numérisations, et la différence a des conséquences pratiques importantes.

Is a PDF the Same as a Scanned Document?

Qu'est-ce qu'un PDF en réalité

PDF signifie Format de document portable. Il s'agit d'un format de fichier : un conteneur pouvant contenir de nombreux types de contenu : du texte réel, des graphiques vectoriels, des images, des hyperliens, des champs de formulaire, des signets, etc. Le format PDF a été conçu pour représenter les documents de manière cohérente sur n'importe quel appareil ou système d'exploitation.

Un PDF créé à partir d'un document Word contient du texte réel, c'est-à-dire des caractères que l'ordinateur peut lire, rechercher, copier et traiter. Un PDF créé à partir d'une feuille de calcul Excel contient des données réelles. Un PDF généré par un navigateur contient du contenu réel de page Web. Dans chaque cas, le PDF est un document structuré avec un contenu authentique, pas une photographie.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Qu'est-ce qu'un document numérisé

Un document numérisé est une photographie d'une page physique. Un scanner capture la lumière réfléchie par le papier et la convertit en une grille de pixels – une image raster. Le fichier résultant est une image du document, et non le document lui-même. Tout texte visible lors de l'analyse n'existe que sous forme de pixels colorés disposés pour ressembler à des lettres.

Lorsque cette numérisation est enregistrée au format PDF, vous obtenez un fichier PDF, mais dont le contenu est une image et non du texte. Le conteneur PDF est réel, mais ce qu'il contient est une photographie. C'est ce qu'on appelle un PDF contenant uniquement des images ou un Scanned PDF, et il se comporte très différemment d'un PDF avec un contenu textuel réel.

Pourquoi la confusion existe

La confusion vient du fait que les documents numérisés sont généralement enregistrés au format PDF. Les scanners et les applications de scanner génèrent généralement des fichiers .pdf par défaut. Ainsi, lorsque quelqu'un reçoit un "PDF" ils peuvent avoir reçu soit un PDF numérique avec du texte réel, soit un PDF numérisé avec un contenu d'image - et les deux semblent identiques à l'écran.

La distinction n'apparaît que lorsque vous essayez de faire quelque chose avec le fichier. Essayez de rechercher un mot. Essayez de copier une phrase. Essayez d'utiliser un lecteur d'écran. Un PDF numérique gère tout cela. Un PDF numérisé ne gère aucun d'entre eux, à moins que l'OCR n'ait été appliqué pour ajouter un calque de texte.

Les différences pratiques qui comptent

Recherchabilité : les digital PDF sont entièrement consultables. Les PDF numérisés ne renvoient aucun résultat à moins que l'OCR n'ait été appliqué.
Taille du fichier : les digital PDFs sont compacts : un document texte de 10 pages fait généralement moins de 500 Ko. Les PDF numérisés stockent les images des pages et sont généralement 10 à 100 fois plus grandes.
Copier et coller : vous pouvez sélectionner et copier du texte à partir d'un PDF numérique. Vous ne pouvez pas utiliser un PDF numérisé : tenter de sélectionner du texte sélectionne l'image entière de la page.
Editing : les digital PDF peuvent avoir un texte modifié directement avec un éditeur PDF. Les PDF numérisés ne peuvent avoir que du nouveau contenu placé en haut : le contenu de l'image existante ne peut pas être modifié.
Accessibilité : les lecteurs d'écran fonctionnent avec les PDF numériques. Les PDF numérisés sont totalement inaccessibles aux technologies d'assistance sans couche de texte OCR.

Comment savoir quel type vous avez

Ouvrez le PDF et essayez de cliquer sur un mot. Dans un PDF numérique, le curseur devient un curseur de texte et vous pouvez sélectionner des mots individuels. Dans un PDF numérisé, rien ne se passe ou la page entière est sélectionnée en un seul bloc.

Appuyez sur Ctrl+F et recherchez un mot que vous pouvez voir sur la page. S'il est trouvé, le PDF contient du vrai texte. Si la recherche ne renvoie rien, c'est uniquement une image. Un troisième indicateur est la qualité du zoom : le zoom sur un PDF numérique maintient le texte net quel que soit le grossissement, tandis que le zoom sur un PDF numérisé révèle une pixellisation lorsque vous agrandissez l'image.

Faire en sorte qu'un PDF numérisé se comporte comme un fichier numérique

OCR — Reconnaissance optique de caractères — lit les images dans un PDF numérisé, reconnaît les caractères du texte et ajoute une véritable couche de texte au fichier. Après OCR, le document devient consultable, copiable et accessible. L'outil OCR de WukongPDF sur www.wukongpdf.com le fait sans logiciel de bureau : téléchargez le PDF numérisé, exécutez l'OCR, téléchargez une version qui contient désormais du vrai texte. Cela ne transformera pas un Scanned PDF en un document numérique natif, mais il comblera la plupart des lacunes pratiques.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →