Others

Por qué los PDFs escaneados son mucho más grandes que los digitales

Una carta de diez páginas escrita en Word y exportada a PDF puede tener 200 KB. Las mismas diez páginas escaneadas y guardadas como PDF pueden tener 30 MB, es decir, 150 veces más. El contenido es idéntico. La diferencia de tamaño de archivo es enorme. Esto surge constantemente cuando las personas escanean documentos y luego se preguntan por qué no pueden enviar el resultado por correo electrónico. La explicación es sencilla una vez que comprende cómo cada tipo de PDF almacena su contenido.

Why Scanned PDFs Are So Much Larger Than Digital Ones

Datos de texto versus datos de imagen: una diferencia de tamaño fundamental

Un PDF digital almacena texto como datos de caracteres. La letra "A" en un PDF se almacena como referencia al carácter "A" en una fuente específica: unos pocos bytes de información que le dicen al espectador qué dibujar y dónde. Una página entera de texto puede ocupar entre 5 y 10 KB porque cada carácter es solo una pequeña referencia, no una imagen.

Un escaneado PDF almacena cada página como una fotografía. Esa misma página de texto, fotografiada a 300 DPI en color, es una cuadrícula de aproximadamente 2.500 × 3.500 píxeles: casi 9 millones de puntos de colores individuales, cada uno de los cuales requiere datos para describir su color exacto. Incluso después de la compresión, una sola página de texto escaneado suele tener entre 1 y 5 MB. Diez páginas significan entre 10 y 50 MB.

WukongPDF

Pruebe Comprimir PDF

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →

Las matemáticas detrás de la diferencia de tamaño

Una página A4 escaneada a 300 ppp produce una imagen de 2480 × 3508 píxeles. Eso es aproximadamente 8,7 millones de píxeles. A todo color (RGB), cada píxel requiere 3 bytes de datos: uno para los valores de rojo, verde y azul. Sin comprimir, son aproximadamente 26 MB por página.

La compresión JPEG reduce esto drásticamente: una página escaneada típica se comprime entre 1 y 3 MB. Pero incluso comprimido, es mucho mayor que los pocos KB necesarios para almacenar el mismo contenido que los caracteres de texto reales. El contenido es el mismo; el método de almacenamiento es completamente diferente.

Color frente a escala de grises frente a blanco y negro

No todos los PDFs escaneados tienen el mismo tamaño. El modo de color elegido en el momento del escaneo tiene un impacto importante:

  • Color (RGB): 3 bytes por píxel. Los archivos más grandes. Necesario para documentos con contenido en color; derrochador de texto negro sobre papel blanco.
  • Escala de grises: 1 byte por píxel. Los archivos tienen aproximadamente 1/3 del tamaño de los escaneos en color. Ideal para documentos mecanografiados, formularios y cualquier cosa sin color significativo.
  • Blanco y negro (1 bit): cada píxel es blanco o negro: 1 bit de datos. Los archivos son extremadamente pequeños. Lo mejor para documentos de texto impresos donde no se necesita sombreado gris, pero duro para cualquier cosa con degradados o fotografías.

Para la mayoría de los escaneos de documentos (cartas, contratos, formularios, facturas), la escala de grises a 150-200 DPI produce archivos legibles, compactos y apropiados para correo electrónico y envío digital.

Qué hacer con los PDFs escaneados de gran tamaño

Si el análisis ya se realizó y el archivo es demasiado grande, la compresión es la solución más rápida. PDF La compresión reduce significativamente los PDFs escaneados (a menudo entre un 60% y un 80%) porque los datos de imagen en cada página tienen una redundancia sustancial que la compresión puede eliminar. WukongPDF en www.wukongpdf.com se encarga de esto: cargue el PDF escaneado, aplique compresión media o alta, descargue un archivo lo suficientemente pequeño para enviarlo por correo electrónico.

Si puede volver a escanear, primero ajuste la configuración: cambie de color a escala de grises, reduzca los DPI de 300 a 150 o 200 y habilite cualquier compresión PDF incorporada en el software del escáner. Estos cambios en el origen producen un archivo mucho más pequeño sin las desventajas de calidad de una compresión agresiva posterior al escaneo.

El enfoque OCR: más pequeño y más útil

Ejecutar un PDF escaneado a través de OCR no sólo permite realizar búsquedas, sino que también puede reducir el tamaño del archivo. Algunas herramientas de OCR reemplazan las imágenes de páginas de alta resolución con versiones de menor resolución después de extraer el texto, ya que la capa de texto maneja la legibilidad y la imagen solo necesita proporcionar contexto visual. El resultado es un archivo más pequeño que también se puede buscar y copiar: un mejor resultado que simplemente comprimir la imagen escaneada.

WukongPDF

Pruebe Comprimir PDF

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →