PDF 与扫描文档相同吗？

人们经常使用“PDF”来表示。和“扫描文档”可以互换 - 尤其是在办公室环境中，有人说“只需扫描并发送 PDF”。但 PDF 和扫描文档不是同一回事，将两者混为一谈会造成真正的混乱。扫描件可以另存为 PDF，但并非所有 PDF 都是扫描件，这种差异具有重大的实际后果。

Is a PDF the Same as a Scanned Document?

PDF 实际上是什么

PDF 代表便携式文档格式。它是一种文件格式——一个可以容纳许多不同类型内容的容器：真实文本、矢量图形、图像、超链接、表单字段、书签等等。 PDF 格式旨在跨任何设备或操作系统一致地表示文档。

从 Word 文档创建的 PDF 包含实际文本 - 计算机可以读取、搜索、复制和处理的字符。从 Excel 电子表格创建的 PDF 包含真实数据。浏览器生成的PDF包含真实的网页内容。在每种情况下，PDF 都是具有真实内容的结构化文档，而不是照片。

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

什么是扫描文档

扫描文档是物理页面的照片。扫描仪捕获从纸张反射的光，并将其转换成像素网格——光栅图像。生成的文件是文档的图片，而不是文档本身。扫描中可见的任何文本仅以彩色像素的形式存在，排列得像字母。

当该扫描保存为 PDF 时，您会得到一个 PDF 文件 - 但其内容是图像，而不是文本。 PDF 容器是真实的，但里面是一张照片。这称为纯图像 PDF 或 Scanned PDF，其行为与具有实际文本内容的 PDF 非常不同。

为什么存在混乱

造成混乱的原因是扫描文档通常保存为 PDF。扫描仪和扫描仪应用程序通常默认输出 .pdf 文件。因此，当有人收到“PDF”时，他们可能收到了包含真实文本的数字 PDF 或包含图像内容的扫描版 PDF - 并且两者在屏幕上看起来相同。

仅当您尝试对文件执行某些操作时，这种区别才会变得明显。尝试搜索一个词。尝试复制一个句子。尝试使用屏幕阅读器。数字 PDF 可以处理所有这些。扫描的 PDF 无法处理其中任何一个 - 除非已应用 OCR 来添加文本图层。

重要的实际差异

可搜索性：数字PDF完全可搜索。除非应用了 OCR，否则扫描的 PDF 不会返回结果。
文件大小： 数字 PDF 非常紧凑 — 10 页文本文档通常小于 500KB。扫描的 PDF 存储页面图像，通常大 10-100 倍。
复制和粘贴：您可以从数字PDF中选择和复制文本。您无法从扫描的 PDF 中尝试选择文本，从而选择整个页面图像。
编辑：数字PDF可以直接使用PDF编辑器编辑文本。扫描的 PDF 只能将新内容放置在顶部 - 现有图像内容无法更改。
辅助功能：屏幕阅读器可与数字PDF配合使用。如果没有 OCR 文本层，辅助技术将完全无法访问扫描的 PDF。

如何判断您属于哪种类型

打开 PDF 并尝试单击一个单词。在数字 PDF 中，光标变成文本光标，您可以选择单个单词。在扫描的 PDF 中，没有任何反应或整个页面被选为一个块。

按 Ctrl+F 并搜索您可以在页面上看到的单词。如果找到，则 PDF 具有真实文本。如果搜索没有返回任何内容，则它只是图像。第三个指标是缩放质量 - 放大数字 PDF 可以在任何放大倍数下保持文本清晰，而放大扫描 PDF 会在放大图像时显示像素化。

使扫描的 PDF 表现得像数字版

OCR — 光学字符识别 — 读取扫描的 PDF 中的图像，识别文本字符，并向文件添加真实的文本层。 OCR 后，文档变得可搜索、可复制和可访问。 www.wukongpdf.com 上的 WukongPDF 的 OCR 工具无需桌面软件即可完成此操作 - 上传扫描的 PDF，运行 OCR，下载现在包含真实文本的版本。它不会将 Scanned PDF 转换为本机数字文档，但它弥补了大部分实际差距。

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →