Десятистраничное письмо, напечатанное в Word и экспортированное в PDF, может иметь размер 200 КБ. Те же десять страниц, отсканированные и сохраненные в формате PDF, могут иметь размер 30 МБ — в 150 раз больше. Содержание идентично. Разница в размерах файлов огромна. Это постоянно возникает, когда люди сканируют документы, а затем задаются вопросом, почему они не могут отправить результат по электронной почте. Объяснение будет простым, если вы поймете, как каждый тип PDF хранит свое содержимое.

Текстовые данные и данные изображения: принципиальная разница в размерах
Цифровой PDF хранит текст в виде символьных данных. Буква «А» в PDF хранится как ссылка на символ «A»; определенным шрифтом — несколько байт информации, подсказывающей зрителю, что и где рисовать. Вся страница текста может занимать 5–10 КБ, поскольку каждый символ — это всего лишь небольшая ссылка, а не картинка.
В отсканированном PDF каждая страница сохраняется в виде фотографии. Та же самая страница текста, сфотографированная в цвете с разрешением 300 точек на дюйм, представляет собой сетку размером примерно 2500 × 3500 пикселей — почти 9 миллионов отдельных цветных точек, каждая из которых требует данных для описания ее точного цвета. Даже после сжатия одна страница отсканированного текста обычно занимает 1–5 МБ. Десять страниц — это 10–50 МБ.
Попробуйте сжать PDF
Никакой установки не требуется. Работает прямо в вашем браузере.
Математика разницы в размерах
Страница формата А4, отсканированная с разрешением 300 точек на дюйм, дает изображение размером 2480 × 3508 пикселей. Это примерно 8,7 миллиона пикселей. В полноцветном режиме (RGB) каждому пикселю требуется 3 байта данных — по одному для значений красного, зеленого и синего. В несжатом виде это примерно 26 МБ на страницу.
Сжатие JPEG значительно снижает этот показатель — типичная отсканированная страница сжимается до 1–3 МБ. Но даже в сжатом виде он на несколько порядков больше, чем несколько КБ, необходимые для хранения того же содержимого, что и реальные текстовые символы. Содержание то же самое; способ хранения совершенно другой.
Цвет, оттенки серого и черно-белый
Не все отсканированные файлы PDF имеют одинаковый размер. Цветовой режим, выбранный во время сканирования, имеет большое значение:
- Цвет (RGB): 3 байта на пиксель. Самые большие файлы. Необходимо для документов с цветным содержимым; расточительно для черного текста на белой бумаге.
- Оттенки серого: 1 байт на пиксель. Размер файлов составляет примерно 1/3 размера цветных сканирований. Идеально подходит для печатных документов, форм и всего, что не имеет значимого цвета.
- Черно-белый (1 бит): каждый пиксель может быть черным или белым — 1 бит данных. Файлы очень маленькие. Лучше всего подходит для печатных текстовых документов, где не требуется затенение серого, но резко для градиентов или фотографий.
При сканировании большинства документов — писем, контрактов, форм, счетов — в оттенках серого с разрешением 150–200 точек на дюйм создаются читаемые, компактные файлы, подходящие для отправки по электронной почте и в цифровом формате.
Что делать с большими отсканированными PDFs
Если сканирование уже выполнено и файл слишком велик, сжатие — самый быстрый способ исправить ситуацию. PDF Сжатие значительно сокращает количество отсканированных PDF — часто на 60–80 % — поскольку данные изображения на каждой странице имеют существенную избыточность, которую можно устранить с помощью сжатия. WukongPDF на www.wukongpdf.com справляется с этим: загружает отсканированный PDF, применяет среднее или высокое сжатие, загружает файл достаточно маленького размера для отправки по электронной почте.
Если вы можете выполнить повторное сканирование, сначала отрегулируйте настройки: переключитесь с цвета на оттенки серого, уменьшите разрешение DPI с 300 до 150 или 200 и включите любое встроенное сжатие PDF в программном обеспечении сканера. Эти изменения в источнике создают файл гораздо меньшего размера без ущерба для качества, связанного с агрессивным сжатием после сканирования.
Подход OCR: меньше и полезнее
Запуск отсканированного PDF через OCR не только делает его доступным для поиска, но также может уменьшить размер файла. Некоторые инструменты оптического распознавания символов заменяют изображения страниц с высоким разрешением версиями с более низким разрешением после извлечения текста, поскольку текстовый слой обеспечивает читаемость, а изображение должно только обеспечивать визуальный контекст. В результате получается файл меньшего размера, который также доступен для поиска и копирования — лучший результат, чем просто сжатие отсканированного изображения.
Попробуйте сжать PDF
Никакой установки не требуется. Работает прямо в вашем браузере.
