Others

PDF 与扫描文档相同吗?

人们经常使用“PDF”来表示。和“扫描文档”可以互换 - 尤其是在办公室环境中,有人说“只需扫描并发送 PDF”。但 PDF 和扫描文档不是同一回事,将两者混为一谈会造成真正的混乱。扫描件可以另存为 PDF,但并非所有 PDF 都是扫描件,这种差异具有重大的实际后果。

Is a PDF the Same as a Scanned Document?

PDF 实际上是什么

PDF 代表便携式文档格式。它是一种文件格式——一个可以容纳许多不同类型内容的容器:真实文本、矢量图形、图像、超链接、表单字段、书签等等。 PDF 格式 旨在跨任何设备或操作系统一致地表示文档。

从 Word 文档创建的 PDF 包含实际文本 - 计算机可以读取、搜索、复制和处理的字符。从 Excel 电子表格创建的 PDF 包含真实数据。浏览器生成的PDF包含真实的网页内容。在每种情况下,PDF 都是具有真实内容的结构化文档,而不是照片。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

什么是扫描文档

扫描文档是物理页面的照片。扫描仪捕获从纸张反射的光,并将其转换成像素网格——光栅图像。生成的文件是文档的图片,而不是文档本身。扫描中可见的任何文本仅以彩色像素的形式存在,排列得像字母。

当该扫描保存为 PDF 时,您会得到一个 PDF 文件 - 但其内容是图像,而不是文本。 PDF 容器是真实的,但里面是一张照片。这称为纯图像 PDF 或 Scanned PDF,其行为与具有实际文本内容的 PDF 非常不同。

为什么存在混乱

造成混乱的原因是扫描文档通常保存为 PDF。扫描仪和扫描仪应用程序通常默认输出 .pdf 文件。因此,当有人收到“PDF”时,他们可能收到了包含真实文本的数字 PDF 或包含图像内容的扫描版 PDF - 并且两者在屏幕上看起来相同。

仅当您尝试对文件执行某些操作时,这种区别才会变得明显。尝试搜索一个词。尝试复制一个句子。尝试使用屏幕阅读器。数字 PDF 可以处理所有这些。扫描的 PDF 无法处理其中任何一个 - 除非已应用 OCR 来添加文本图层。

重要的实际差异

  • 可搜索性:数字PDF完全可搜索。除非应用了 OCR,否则扫描的 PDF 不会返回结果。
  • 文件大小: 数字 PDF 非常紧凑 — 10 页文本文档通常小于 500KB。扫描的 PDF 存储页面图像,通常大 10-100 倍。
  • 复制和粘贴:您可以从数字PDF中选择和复制文本。您无法从扫描的 PDF 中尝试选择文本,从而选择整个页面图像。
  • 编辑:数字PDF可以直接使用PDF编辑器编辑文本。扫描的 PDF 只能将新内容放置在顶部 - 现有图像内容无法更改。
  • 辅助功能:屏幕阅读器可与数字PDF配合使用。如果没有 OCR 文本层,辅助技术将完全无法访问扫描的 PDF。

如何判断您属于哪种类型

打开 PDF 并尝试单击一个单词。在数字 PDF 中,光标变成文本光标,您可以选择单个单词。在扫描的 PDF 中,没有任何反应或整个页面被选为一个块。

按 Ctrl+F 并搜索您可以在页面上看到的单词。如果找到,则 PDF 具有真实文本。如果搜索没有返回任何内容,则它只是图像。第三个指标是缩放质量 - 放大数字 PDF 可以在任何放大倍数下保持文本清晰,而放大扫描 PDF 会在放大图像时显示像素化。

使扫描的 PDF 表现得像数字版

OCR — 光学字符识别 — 读取扫描的 PDF 中的图像,识别文本字符,并向文件添加真实的文本层。 OCR 后,文档变得可搜索、可复制和可访问。 www.wukongpdf.com 上的 WukongPDF 的 OCR 工具无需桌面软件即可完成此操作 - 上传扫描的 PDF,运行 OCR,下载现在包含真实文本的版本。它不会将 Scanned PDF 转换为本机数字文档,但它弥补了大部分实际差距。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →