Others

扫描版 PDF 与数字版 PDF:主要区别

两个 PDF 在屏幕上看起来可能相同,但行为却完全不同。打开后,您可以单击文本、搜索单词、复制段落。另一个看起来相同,但单击没有任何作用 - 光标不会落在文本上,Ctrl+F 找不到任何内容。区别在于 PDF 是通过数字方式创建还是通过扫描物理文档创建。理解这种区别可以解释人们在使用 PDF 时遇到的许多令人沮丧的行为。

Scanned PDF vs Digital PDF: Key Differences

每种类型如何创建

数字 PDF 直接由软件创建 - 从 Word 导出、由会计软件生成、由网络浏览器的打印功能生成或由任何可以输出 PDF 的应用程序创建。文件中的文本是真实的字符数据。计算机知道每个单词、每个字母、每个空格。

扫描的 PDF 是通过拍摄或扫描物理文档创建的。扫描仪捕获页面图像 - 看起来像文本但不包含文本数据的像素网格。该文件是一张封装在 PDF 容器中的照片。计算机看到的是图像,而不是文字。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

如何判断您属于哪种类型

最快的测试:尝试通过单击并拖动来选择一个单词。在数字 PDF 中,光标会变为文本光标,并且单个单词会突出显示。在扫描的 PDF 中,没有任何突出显示,或者整个页面被选为一个图像块。

第二个测试:按 Ctrl+F 并搜索您可以在页面上看到的单词。在数字 PDF 中,可以立即找到它。在扫描的 PDF 中,搜索不会返回任何内容。第三个指标是文件大小 - 扫描的 PDF 通常比具有相同内容的数字 PDF 大得多,因为它存储图像数据而不是高效的文本编码。

实践中的主要差异

  • 可搜索性:数字PDF可按内容完全搜索。扫描的 PDF 无法搜索 - 只能通过文件名找到,除非应用了 OCR。
  • 复制和粘贴:digital PDFs允许文本选择和复制。扫描的 PDF 则不然 — 您必须重新输入要提取的任何内容。
  • 文件大小:10页数字文本文档通常为100-300KB。相同的页面在 300 DPI 下的彩色扫描大小为 20-40MB,大约大 100 倍。
  • 辅助功能:屏幕阅读器可与数字PDF配合使用。如果没有 OCR,扫描的 PDF 是完全无法访问的 - 没有文本可供屏幕阅读器阅读。
  • 打印质量:数字PDF可以以任何尺寸打印,不会造成质量损失,因为文本和矢量元素可以无限缩放。扫描的 PDF 以固定分辨率打印 - 放大到足够大,像素变得可见。
  • 编辑:数字PDF可以使用PDF编辑器进行编辑 - 单击文本并直接更改它。扫描的 PDF 只能通过将新内容放置在图像顶部来进行编辑,而不能通过更改现有内容来进行编辑。

弥合差距:OCR 的作用

OCR(光学字符识别)弥补了扫描版 PDF 和数字版 PDF 之间的大部分差距。通过 OCR 工具运行 Scanned PDF 会向文件添加真实的文本层 - 图像仍然可见,但在其下方,软件已识别并嵌入实际字符。 OCR 后,文档就可以被屏幕阅读器搜索、复制和访问。

OCR 并不完美 - 准确性取决于扫描质量、字体清晰度和语言。但对于以标准字体打印的文档的清晰扫描,现代 OCR 非常准确,可以将令人沮丧的纯图像 PDF 转换为表现得像正确的数字文档的文档。 www.wukongpdf.com 上的 WukongPDF 的 OCR 工具无需桌面软件即可处理此问题。

针对不同目的使用哪种类型

  • 对于您自己创建的文档:始终通过从源应用程序导出来创建数字PDF。切勿扫描您以数字方式创建的内容的打印输出 - 这会增加不必要的降级。
  • 对于需要数字化的物理文档:扫描是唯一的选择,但之后立即运行 OCR 以使结果与数字 PDF 一样有用。
  • 用于存档重要文档:如果您有原始数字源,请存档数字PDF。如果您只有物理文档,请扫描它,应用 OCR,压缩它,然后存储 OCR 处理的版本。
WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →