压缩 PDF 使其更小,但“更小”了。涵盖了幕后发生的一系列事情。实际更改的内容取决于文件包含的内容以及应用的压缩类型。了解这一点可以帮助您预测输出的样子,并解释为什么相同的压缩设置在不同的文档上会产生截然不同的结果。

A PDF 是一个文件中的多种类型的数据
在了解压缩的作用之前,了解 PDF 中的内容会有所帮助。典型的文档包含以下内容的组合:矢量图形(形状、线条、数学绘制的图表)、光栅图像(照片、扫描页面、屏幕截图)、带有字体数据的文本、文档元数据(作者、创建日期、标题)和结构信息(页面布局、书签、链接)。其中每一个的存储方式都不同,对压缩的响应也不同。
尝试压缩PDF
无需安装。直接在您的浏览器中工作。
图像会发生什么
图像是 PDF 文件大小的大部分所在,也是压缩效果最显着的地方。当您压缩 PDF 时,该工具会使用更激进的压缩算法对嵌入图像进行重新编码 - 通常对彩色图像使用 JPEG,对黑白图像使用 JBIG2 或 CCITT。这减少了代表每个图像所存储的数据量。
JPEG 压缩是有损的 - 它会永久丢弃一些图像数据以实现更小的文件大小。在高质量设置 (80-90%) 下,丢弃的数据位于人眼最不敏感的图像区域:精细纹理、微妙的颜色渐变、高频细节。结果看起来基本相同。在较低质量设置下,丢弃的数据会变得明显,表现为块状、模糊或色带——经典的 JPEG 伪影。
下采样是一些压缩工具应用的相关步骤。它减少了图像的像素尺寸(300 DPI 的图像可能会变成 150 DPI),这使得文件变得更小,但在打印或缩放时也会使图像变得更柔和。质量PDF压缩工具可以跳过下采样或将其设为可选设置。
文本会发生什么
PDF 中的文本存储为带有位置、样式和字体引用的字符,而不是存储为字母图像。使用 Deflate(与 ZIP 文件中使用的算法相同)等无损算法可以非常有效地压缩此数据。无损压缩可在不删除任何数据的情况下减小文件大小:解压缩的输出与原始输出逐位相同。
这意味着压缩的 PDF 中的文本与原始文本完全相同 - 相同的字符、相同的位置、相同的字体渲染。压缩文档的文本不会以任何方式降低质量。如果压缩后的 PDF 中的文本看起来有所不同,则问题在于查看器中的字体呈现,而不是压缩发生的任何更改。
字体会发生什么
嵌入字体会显着增加文件大小。嵌入五种字体的完整字体文件的 PDF 可能仅包含几兆字节的字体数据。压缩工具可以通过字体子集化来解决这个问题——从嵌入字体中删除文档中实际未使用的任何字符。仅使用字母 A-Z 和 0-9 的文档不需要嵌入完整的 Unicode 字符集。
从读者的角度来看,字体子集设置是无损的 - 文档仍然可以正确呈现,因为其中出现的所有字符仍然存在。节省的金额取决于嵌入的原始字体的字符数与实际使用的字符数。
什么被完全删除
除了压缩现有数据之外,压缩工具还可以消除 PDF 中随时间累积的开销。每次编辑和保存 PDF 时,编辑元素的先前版本通常会保留在文件结构中而不是删除 - 这就是 PDF 编辑器内撤消历史记录和版本恢复的工作方式。经过多次编辑-保存周期的文档可能会承受很大的负担:旧版本的对象、重复的数据、从未真正从文件中删除的已删除内容。
压缩可以清除这个问题。该工具从头开始重建文件结构,仅保留每个元素的当前状态并丢弃累积的历史记录。这就是为什么新压缩的 PDF 有时会比预期小很多——该文件由于之前的编辑而存在明显的隐藏膨胀。
什么保持完全相同
压缩不会更改文档的内容、布局或结构。页数、页序、文本内容、矢量图形、书签、超链接和表单字段均保持不变。出于所有实际目的,压缩的 PDF 的打开、显示和行为都与原始文件相同。
根据设置,可能会改变的是高缩放级别下的图像清晰度和文件的元数据。一些压缩工具会删除或更新元数据,这通常很好,但值得了解原始创建日期或作者字段是否对您的记录很重要。
尝试压缩PDF
无需安装。直接在您的浏览器中工作。
