Others

Pourquoi les PDF numérisés sont tellement plus volumineux que les fichiers numériques

Une lettre de dix pages saisie dans Word et exportée au format PDF peut faire 200 Ko. Les mêmes dix pages numérisées et enregistrées au format PDF peuvent faire 30 Mo, soit 150 fois plus grandes. Le contenu est identique. La différence de taille de fichier est énorme. Cela revient constamment lorsque les gens numérisent des documents et se demandent ensuite pourquoi ils ne peuvent pas envoyer le résultat par courrier électronique. L'explication est simple une fois que vous comprenez comment chaque type de PDF stocke son contenu.

Why Scanned PDFs Are So Much Larger Than Digital Ones

Données texte et données image : une différence de taille fondamentale

Un PDF numérique stocke le texte sous forme de données de caractères. La lettre "A" dans un PDF est stocké comme référence au caractère « A » dans une police spécifique - quelques octets d'informations qui indiquent au spectateur quoi dessiner et où. Une page entière de texte peut occuper 5 à 10 Ko, car chaque caractère n'est qu'une petite référence, pas une image.

Un Scanned PDF stocke chaque page sous forme de photographie. Cette même page de texte, photographiée en couleur à 300 DPI, est une grille d'environ 2 500 × 3 500 pixels, soit près de 9 millions de points colorés individuels, chacun nécessitant des données pour décrire sa couleur exacte. Même après compression, une seule page de texte numérisé fait généralement entre 1 et 5 Mo. Dix pages signifient 10 à 50 Mo.

WukongPDF

Essayez Compress PDF

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →

Les mathématiques derrière la différence de taille

Une page A4 numérisée à 300 DPI produit une image de 2 480 × 3 508 pixels. Cela représente environ 8,7 millions de pixels. En couleur (RVB), chaque pixel nécessite 3 octets de données : un pour les valeurs rouge, verte et bleue. Non compressé, cela représente environ 26 Mo par page.

La compression JPEG réduit considérablement ce phénomène : une page numérisée typique est compressée entre 1 et 3 Mo. Mais même compressé, il représente des ordres de grandeur supérieurs aux quelques Ko nécessaires pour stocker le même contenu sous forme de caractères de texte réels. Le contenu est le même ; la méthode de stockage est complètement différente.

Couleur vs niveaux de gris vs noir et blanc

Tous les PDF numérisés n’ont pas la même taille. Le mode couleur choisi au moment de la numérisation a un impact majeur :

  • Color (RVB) : 3 octets par pixel. Les plus gros fichiers. Nécessaire pour les documents avec un contenu en couleur ; inutile pour du texte noir sur du papier blanc.
  • Niveaux de gris : 1 octet par pixel. Les fichiers font environ 1/3 de la taille des numérisations couleur. Idéal pour les documents dactylographiés, les formulaires et tout ce qui n'a pas de couleur significative.
  • Noir et blanc (1 bit) : chaque pixel est noir ou blanc – 1 bit de données. Les fichiers sont extrêmement petits. Idéal pour les documents texte imprimés dans lesquels aucune nuance de gris n'est nécessaire, mais sévère pour tout ce qui comporte des dégradés ou des photographies.

Pour la plupart des numérisations de documents (lettres, contrats, formulaires, factures), les niveaux de gris à 150-200 DPI produisent des fichiers lisibles, compacts et adaptés à la soumission par courrier électronique et numérique.

Que faire à propos des PDF volumineux numérisés

Si l'analyse est déjà effectuée et que le fichier est trop volumineux, la compression est la solution la plus rapide. La compression PDF réduit considérablement les PDF numérisés, souvent de 60 à 80 %, car les données d'image de chaque page présentent une redondance substantielle que la compression peut éliminer. WukongPDF sur www.wukongpdf.com gère cela : téléchargez le PDF numérisé, appliquez une compression moyenne ou élevée, téléchargez un fichier suffisamment petit pour l'envoyer par courrier électronique.

Si vous pouvez renumériser, ajustez d'abord les paramètres : passez de la couleur aux niveaux de gris, réduisez le DPI de 300 à 150 ou 200 et activez toute compression PDF intégrée dans le logiciel du scanner. Ces modifications à la source produisent un fichier beaucoup plus petit sans les compromis de qualité liés à une compression agressive après numérisation.

L'approche OCR : plus petite et plus utile

L'exécution d'un PDF numérisé via OCR ne permet pas seulement de le rendre consultable, mais peut également réduire la taille du fichier. Certains outils OCR remplacent les images de page haute résolution par des versions basse résolution après avoir extrait le texte, car la couche de texte gère la lisibilité et l'image n'a besoin que de fournir un contexte visuel. Le résultat est un fichier plus petit qui est également consultable et copiable – un meilleur résultat que la simple compression de l'analyse d'images uniquement.

WukongPDF

Essayez Compress PDF

Aucune installation nécessaire. Fonctionne directement dans votre navigateur.

Commencer →