Почему отсканированные PDF намного больше цифровых

Десятистраничное письмо, напечатанное в Word и экспортированное в PDF, может иметь размер 200 КБ. Те же десять страниц, отсканированные и сохраненные в формате PDF, могут иметь размер 30 МБ — в 150 раз больше. Содержание идентично. Разница в размерах файлов огромна. Это постоянно возникает, когда люди сканируют документы, а затем задаются вопросом, почему они не могут отправить результат по электронной почте. Объяснение будет простым, если вы поймете, как каждый тип PDF хранит свое содержимое.

Why Scanned PDFs Are So Much Larger Than Digital Ones

Текстовые данные и данные изображения: принципиальная разница в размерах

Цифровой PDF хранит текст в виде символьных данных. Буква «А» в PDF хранится как ссылка на символ «A»; определенным шрифтом — несколько байт информации, подсказывающей зрителю, что и где рисовать. Вся страница текста может занимать 5–10 КБ, поскольку каждый символ — это всего лишь небольшая ссылка, а не картинка.

В отсканированном PDF каждая страница сохраняется в виде фотографии. Та же самая страница текста, сфотографированная в цвете с разрешением 300 точек на дюйм, представляет собой сетку размером примерно 2500 × 3500 пикселей — почти 9 миллионов отдельных цветных точек, каждая из которых требует данных для описания ее точного цвета. Даже после сжатия одна страница отсканированного текста обычно занимает 1–5 МБ. Десять страниц — это 10–50 МБ.

Попробуйте сжать PDF

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Математика разницы в размерах

Страница формата А4, отсканированная с разрешением 300 точек на дюйм, дает изображение размером 2480 × 3508 пикселей. Это примерно 8,7 миллиона пикселей. В полноцветном режиме (RGB) каждому пикселю требуется 3 байта данных — по одному для значений красного, зеленого и синего. В несжатом виде это примерно 26 МБ на страницу.

Сжатие JPEG значительно снижает этот показатель — типичная отсканированная страница сжимается до 1–3 МБ. Но даже в сжатом виде он на несколько порядков больше, чем несколько КБ, необходимые для хранения того же содержимого, что и реальные текстовые символы. Содержание то же самое; способ хранения совершенно другой.

Цвет, оттенки серого и черно-белый

Не все отсканированные файлы PDF имеют одинаковый размер. Цветовой режим, выбранный во время сканирования, имеет большое значение:

Цвет (RGB): 3 байта на пиксель. Самые большие файлы. Необходимо для документов с цветным содержимым; расточительно для черного текста на белой бумаге.
Оттенки серого: 1 байт на пиксель. Размер файлов составляет примерно 1/3 размера цветных сканирований. Идеально подходит для печатных документов, форм и всего, что не имеет значимого цвета.
Черно-белый (1 бит): каждый пиксель может быть черным или белым — 1 бит данных. Файлы очень маленькие. Лучше всего подходит для печатных текстовых документов, где не требуется затенение серого, но резко для градиентов или фотографий.

При сканировании большинства документов — писем, контрактов, форм, счетов — в оттенках серого с разрешением 150–200 точек на дюйм создаются читаемые, компактные файлы, подходящие для отправки по электронной почте и в цифровом формате.

Что делать с большими отсканированными PDFs

Если сканирование уже выполнено и файл слишком велик, сжатие — самый быстрый способ исправить ситуацию. PDF Сжатие значительно сокращает количество отсканированных PDF — часто на 60–80 % — поскольку данные изображения на каждой странице имеют существенную избыточность, которую можно устранить с помощью сжатия. WukongPDF на www.wukongpdf.com справляется с этим: загружает отсканированный PDF, применяет среднее или высокое сжатие, загружает файл достаточно маленького размера для отправки по электронной почте.

Если вы можете выполнить повторное сканирование, сначала отрегулируйте настройки: переключитесь с цвета на оттенки серого, уменьшите разрешение DPI с 300 до 150 или 200 и включите любое встроенное сжатие PDF в программном обеспечении сканера. Эти изменения в источнике создают файл гораздо меньшего размера без ущерба для качества, связанного с агрессивным сжатием после сканирования.

Подход OCR: меньше и полезнее

Запуск отсканированного PDF через OCR не только делает его доступным для поиска, но также может уменьшить размер файла. Некоторые инструменты оптического распознавания символов заменяют изображения страниц с высоким разрешением версиями с более низким разрешением после извлечения текста, поскольку текстовый слой обеспечивает читаемость, а изображение должно только обеспечивать визуальный контекст. В результате получается файл меньшего размера, который также доступен для поиска и копирования — лучший результат, чем просто сжатие отсканированного изображения.

Попробуйте сжать PDF

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →