Сжатие PDF делает его меньше, но «меньше»; охватывает целый ряд вещей, происходящих под капотом. То, что на самом деле будет изменено, зависит от того, что содержит файл и какой тип сжатия применяется. Понимание этого поможет вам предсказать, как будет выглядеть результат, и объяснит, почему одни и те же настройки сжатия дают совершенно разные результаты в разных документах.

A PDF — это несколько типов данных в одном файле
Прежде чем углубляться в то, что делает сжатие, полезно узнать, что находится внутри PDF. Типичный документ содержит некоторую комбинацию: векторной графики (фигуры, линии, диаграммы, нарисованные математически), растровых изображений (фотографии, сканированные страницы, снимки экрана), текста с данными шрифта, метаданных документа (автор, дата создания, заголовок) и структурной информации (макет страницы, закладки, ссылки). Каждый из них хранится по-разному и по-разному реагирует на сжатие.
Попробуйте сжать PDF
Никакой установки не требуется. Работает прямо в вашем браузере.
Что происходит с изображениями
В изображениях находится большая часть размера файла PDF, и именно здесь сжатие имеет наиболее значительный эффект. Когда вы сжимаете PDF, инструмент перекодирует встроенные изображения, используя более агрессивный алгоритм сжатия — обычно JPEG для цветных изображений, JBIG2 или CCITT для черно-белых. Это уменьшает объем данных, хранящихся для представления каждого изображения.
Сжатие JPEG происходит с потерями — некоторые данные изображения навсегда отбрасываются для достижения меньшего размера файла. При высоких настройках качества (80–90%) отбрасываются данные в тех областях изображения, к которым человеческий глаз наименее чувствителен: мелкая текстура, тонкие цветовые градиенты, высокочастотная детализация. Результат выглядит практически идентичным. При более низких настройках качества отброшенные данные становятся видимыми в виде блочности, размытия или цветных полос — классических артефактов JPEG.
Понижение дискретизации — это сопутствующий шаг, который применяют некоторые инструменты сжатия. Это уменьшает размеры изображений в пикселях — изображение с разрешением 300 точек на дюйм может стать разрешением 150 точек на дюйм — что делает файлы намного меньше, но также делает изображения более мягкими при печати или масштабировании. Качество PDF Инструменты сжатия либо пропускают понижение разрешения, либо делают его необязательным.
Что происходит с текстом
Текст в PDF хранится в виде символов с позициями, стилями и ссылками на шрифты, а не в виде изображений букв. Эти данные очень эффективно сжимаются с использованием алгоритмов без потерь, таких как Deflate (тот же алгоритм, который используется в ZIP-файлах). Сжатие без потерь уменьшает размер файла без удаления каких-либо данных: распакованный вывод побитно идентичен оригиналу.
Это означает, что текст в сжатом PDF точно такой же, как и в оригинале — те же символы, те же позиции, тот же рендеринг шрифта. Текст сжатого документа никоим образом не ухудшается. Если текст в сжатом PDF выглядит по-другому, проблема заключается в рендеринге шрифтов в средстве просмотра, а не в изменении сжатия.
Что происходит со шрифтами
Встроенные шрифты могут существенно влиять на размер файла. PDF, в который встроены полные файлы шрифтов для пяти гарнитур, может содержать только несколько мегабайт данных шрифта. Инструменты сжатия могут решить эту проблему с помощью подмножества шрифтов — удаления из встроенного шрифта любых символов, которые фактически не используются в документе. Документ, в котором используются только буквы A–Z и 0–9, не требует встроенного полного набора символов Юникода.
Поднабор шрифтов осуществляется без потерь с точки зрения читателя — документ по-прежнему отображается правильно, поскольку все символы, которые в нем присутствуют, по-прежнему присутствуют. Экономия зависит от того, сколько символов встроено в исходный шрифт по сравнению с тем, сколько символов фактически используется.
Что будет удалено полностью
Помимо сжатия существующих данных, инструменты сжатия также удаляют накладные расходы, которые со временем накапливаются внутри PDF. Каждый раз, когда PDF редактируется и сохраняется, предыдущая версия отредактированных элементов часто сохраняется в структуре файла, а не удаляется — так работает история отмены и восстановление версий в редакторах PDF. Документ, прошедший множество циклов редактирования и сохранения, может нести большой груз: старые версии объектов, повторяющиеся данные, удаленный контент, который так и не был удален из файла.
Сжатие убирает это. Инструмент перестраивает структуру файла с нуля, сохраняя только текущее состояние каждого элемента и отбрасывая накопленную историю. Вот почему свежесжатые PDF-файлы иногда оказываются значительно меньше ожидаемого — файл содержал значительное скрытое раздувание из-за предыдущих изменений.
Что остается неизменным
Сжатие не меняет содержимое, макет или структуру документа. Количество страниц, порядок страниц, текстовое содержимое, векторная графика, закладки, гиперссылки и поля формы — все остается нетронутым. Сжатый PDF открывается, отображается и ведет себя идентично оригиналу для всех практических целей.
Что может измениться — в зависимости от настроек — так это резкость изображения при высоких уровнях масштабирования и метаданные файла. Некоторые инструменты сжатия удаляют или обновляют метаданные, что обычно нормально, но стоит знать, имеет ли значение исходная дата создания или поле автора для ваших записей.
Попробуйте сжать PDF
Никакой установки не требуется. Работает прямо в вашем браузере.
