PDF numérisé et PDF numérique : principales différences

Deux PDF peuvent paraître identiques à l'écran mais se comporter complètement différemment. On s'ouvre et on peut cliquer dans le texte, rechercher un mot, copier un paragraphe. L'autre se ressemble mais cliquer ne fait rien : le curseur n'atterrira pas sur le texte, Ctrl+F ne trouvera rien. La différence est de savoir si le PDF a été créé numériquement ou en numérisant un document physique. Comprendre cette distinction explique une grande partie du comportement frustrant que les gens rencontrent avec les PDF.

Scanned PDF vs Digital PDF: Key Differences

Comment chaque type est créé

Un PDF numérique est créé directement à partir d'un logiciel : exporté depuis Word, généré par un logiciel de comptabilité, produit par la fonction d'impression d'un navigateur Web ou créé par toute application capable de produire un PDF. Le texte du fichier est constitué de données de caractères réelles. L'ordinateur connaît chaque mot, chaque lettre, chaque espace.

Un PDF numérisé est créé en photographiant ou en numérisant un document physique. Le scanner capture une image de la page – une grille de pixels qui ressemble à du texte mais ne contient aucune donnée textuelle. Le fichier est une photographie enveloppée dans un conteneur PDF. L'ordinateur voit une image, pas des mots.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Comment savoir quel type vous avez

Le test le plus rapide : essayez de sélectionner un mot en cliquant et en faisant glisser. Dans un PDF numérique, le curseur se transforme en curseur de texte et les mots individuels sont mis en surbrillance. Dans un PDF numérisé, rien n'est mis en surbrillance ou la page entière est sélectionnée comme un seul bloc d'image.

Un deuxième test : appuyez sur Ctrl+F et recherchez un mot que vous voyez sur la page. Dans un PDF numérique, on le trouve immédiatement. Dans un PDF numérisé, la recherche ne renvoie rien. Un troisième indicateur est la taille du fichier : un PDF numérisé est généralement beaucoup plus volumineux qu'un PDF numérique avec le même contenu, car il stocke des données d'image au lieu d'un encodage de texte efficace.

Principales différences dans la pratique

Recherchabilité : les digital PDF sont entièrement consultables par contenu. Les PDF numérisés sont invisibles pour la recherche : ils ne peuvent être trouvés que par nom de fichier, sauf si l'OCR a été appliqué.
Copier et coller : les digital PDFs permettent la sélection et la copie de texte. Ce n'est pas le cas des PDF numérisés : vous devrez retaper tout contenu que vous souhaitez extraire.
Taille du fichier : un document texte numérique de 10 pages pèse généralement entre 100 et 300 Ko. Les mêmes pages qu'une numérisation couleur à 300 DPI font 20 à 40 Mo, soit environ 100 fois plus grandes.
Accessibilité : les lecteurs d'écran fonctionnent avec les PDF numériques. Les PDF numérisés sont totalement inaccessibles sans OCR : le lecteur d'écran ne peut lire aucun texte.
Qualité d'impression : les digital PDFs s'impriment à n'importe quelle taille sans perte de qualité, car le texte et les éléments vectoriels évoluent à l'infini. Les PDF numérisés s'impriment à une résolution fixe : zoomez suffisamment et les pixels deviennent visibles.
Édition : les digital PDF peuvent être modifiés avec un PDF Editor — en cliquant sur le texte et en le modifiant directement. Les PDF numérisés ne peuvent être modifiés qu'en plaçant un nouveau contenu au-dessus de l'image, et non en modifiant le contenu existant.

Combler le fossé : ce que fait l'OCR

L'OCR (Optical Character Recognition) comble l'essentiel de l'écart entre les PDF numérisés et numériques. L'exécution d'un Scanned PDF via un outil OCR ajoute une véritable couche de texte au fichier : l'image reste visible, mais en dessous, le logiciel a reconnu et intégré les caractères réels. Après l'OCR, le document devient consultable, copiable et accessible aux lecteurs d'écran.

L'OCR n'est pas parfait : la précision dépend de la qualité de la numérisation, de la clarté de la police et de la langue. Mais pour des numérisations nettes de documents dactylographiés dans des polices standard, l'OCR moderne est très précis et transforme un PDF frustrant contenant uniquement des images en un document qui se comporte comme un véritable document numérique. L'outil OCR de WukongPDF sur www.wukongpdf.com gère cela sans avoir besoin d'un logiciel de bureau.

Quel type utiliser à différentes fins

Pour les documents que vous créez vous-même : créez toujours des PDF numériques en les exportant à partir de l'application source. Ne numérisez jamais une impression de quelque chose que vous avez créé numériquement – cela ajouterait une dégradation inutile.
Pour les documents physiques qui doivent être numériques : la numérisation est la seule option, mais exécutez l'OCR immédiatement après pour rendre le résultat aussi utile qu'un PDF numérique.
Pour archiver des documents importants : si vous disposez de la source numérique originale, archivez le PDF numérique. Si vous ne disposez que d'un document physique, numérisez-le, appliquez l'OCR, compressez-le et stockez la version traitée par OCR.

Essayez PDF OCR

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →