Others

为什么扫描版 PDF 比数字版大得多

在 Word 中输入并导出为 PDF 的十页信件可能有 200KB。扫描并保存为 PDF 的相同十页可能有 30MB — 150 倍大。内容是相同的。文件大小差异巨大。当人们扫描文档然后想知道为什么不能通过电子邮件发送结果时,这种情况经常会出现。一旦您了解了每种类型的 PDF 如何存储其内容,解释就很简单了。

Why Scanned PDFs Are So Much Larger Than Digital Ones

文本数据与图像数据:基本的大小差异

数字 PDF 将文本存储为字符数据。字母“A”是指字母“A”。 PDF 中的字符“A”被存储为对字符“A”的引用。以特定的字体——几个字节的信息告诉观众要画什么以及在哪里画。整页文本可能会占用 5-10KB,因为每个字符只是一个小参考,而不是图片。

Scanned PDF 将每个页面存储为照片。同一页文本以 300 DPI 的彩色拍摄,是一个大约 2,500 × 3,500 像素的网格——近 900 万个单独的彩色点,每个点都需要数据来描述其确切的颜色。即使经过压缩,单页扫描文本通常也只有 1-5MB。十页意味着 10-50MB。

WukongPDF

尝试压缩 PDF

无需安装。直接在您的浏览器中工作。

立即开始 →

尺寸差异背后的数学

以 300 DPI 扫描的 A4 页面会生成 2,480 × 3,508 像素的图像。这大约是 870 万像素。在全彩 (RGB) 中,每个像素需要 3 个字节的数据 — 红色、绿色和蓝色值各一个。未压缩时,每页大约 26MB。

JPEG 压缩可显着减少这种情况 — 典型的扫描页面可压缩至 1-3MB。但即使经过压缩,它也比存储与实际文本字符相同的内容所需的几 KB 大几个数量级。内容相同;存储方法完全不同。

彩色与灰度与黑白

并非所有扫描的 PDF 尺寸都相同。扫描时选择的颜色模式具有重大影响:

  • 颜色 (RGB):每像素 3 字节。最大的文件。对于带有彩色内容的文档是必需的;白纸上的黑色文本浪费。
  • 灰度:每像素1字节。文件大小大约是彩色扫描件的 1/3。非常适合打印文档、表格和任何没有有意义颜色的内容。
  • 黑白(1 位):每个像素要么是黑色,要么是白色 — 1 位数据。文件非常小。最适合不需要灰色阴影的打印文本文档,但对于任何带有渐变或照片的内容来说很苛刻。

对于大多数文档扫描(信件、合同、表格、发票),150-200 DPI 的灰度可生成可读、紧凑且适合电子邮件和数字提交的文件。

如何处理大型扫描PDFs

如果扫描已经完成并且文件太大,压缩是最快的修复方法。 PDF 压缩 显着减少扫描的 PDF(通常减少 60-80%),因为每个页面中的图像数据都具有压缩可以消除的大量冗余。 www.wukongpdf.com 的 WukongPDF 处理此操作:上传扫描的 PDF,应用中度或高度压缩,下载足够小的文件以通过电子邮件发送。

如果可以重新扫描,请先调整设置:从彩色切换到灰度,将 DPI 从 300 降低到 150 或 200,并启用扫描仪软件中的任何内置 PDF 压缩。这些从源头进行的更改会生成更小的文件,而无需进行激进的扫描后压缩的质量权衡。

OCR 方法:更小、更有用

通过 OCR 运行扫描的 PDF 不仅可以使其可搜索,还可以减小文件大小。一些 OCR 工具在提取文本后用低分辨率版本替换高分辨率页面图像,因为文本层处理可读性,而图像只需要提供视觉上下文。结果是一个更小的文件,也可以搜索和复制 - 比仅压缩仅图像扫描更好的结果。

WukongPDF

尝试压缩 PDF

无需安装。直接在您的浏览器中工作。

立即开始 →