扫描文档并将其另存为 PDF 感觉像是一个已解决的问题。你把纸放进去,你就会得到一个文件,它看起来就像一个普通的PDF。工作完成了。但事实并非如此——并非如此。扫描的 PDF 看起来像文档,但行为却像照片,这种区别产生了数量惊人的实际问题,让人们在实际尝试使用该文件时措手不及。

核心误解:它看起来像文本,但它不是
当您在屏幕上阅读扫描文档时,您的大脑会看到文本——单词、句子、段落。但是 PDF 查看器向您显示的是文本图像,而不是文本本身。每个字母都是恰好看起来像字母的像素的集合。没有底层字符数据,没有可搜索的内容,没有计算机可以解释的结构。
确认这一点的快速方法:尝试单击并拖动以选择文档中的单词。在基于文本的 PDF 上,光标会发生变化,您可以突出显示单个单词。在扫描的 PDF 上,没有任何反应 - 或者整个页面选择为单个图像块。这种差异是随后出现的大多数问题的根本原因。
尝试 PDF OCR
无需安装。直接在您的浏览器中工作。
你无法在其中搜索
在扫描的 PDF 中按 Ctrl+F,搜索什么也找不到 - 或者它搜索文件名,而不是内容。对于两页的表格来说,这是一个小小的不便。对于 200 页的合同、500 页的手册或十年发票的存档,无法搜索是一个严重的限制。您必须手动通读整个文档才能找到您要查找的内容。
这是可以修复的。通过 OCR PDF 工具运行扫描的 PDF 会将图像内容转换为真实文本并将其嵌入到文件中。 OCR 后,该文档是完全可搜索的 - Ctrl+F 查找单词,并且该文件在操作系统中按其内容搜索显示,而不仅仅是其文件名。 www.wukongpdf.com 上的 WukongPDF 的 OCR 工具可以一步处理这一问题。
复制文本没有任何用处
需要将扫描合同中的条款提取到电子邮件中吗?或者将扫描报告中的图表提取到电子表格中?使用基于文本的 PDF,您可以选择并复制。使用扫描的 PDF,您要么什么也得不到,要么得到 PDF 查看器即时运行的任何基本 OCR — 这通常不够准确,需要进行重大修正。
人们通过手动重新输入内容来解决这个问题,这很慢并且会引入错误。或者他们截取文本并尝试从中阅读,这很尴尬。首先在文档上运行正确的 OCR 可以消除所有这些问题——一旦文本是真实的,复制它就可以完全按照预期工作。
扫描的 PDF 过大
从 Word 导出的十页文本文档可能有 200KB。以 300 DPI 扫描的相同十页可能有 15MB。这不是拼写错误 - 扫描的 PDF 将每个页面存储为高分辨率图像,并且图像数据本质上比编码文本重得多。
这会产生实际问题:电子邮件附件限制、门户上传缓慢、大规模存储成本。解决方法是压缩 - 一个好的 PDF 压缩 工具可以显着减少扫描的 PDF 的大小,通常为 60-80%,同时保持图像的可读性。对于扫描文档的大型档案,存储前的压缩是值得系统地进行的。
屏幕阅读器无法访问它们
屏幕阅读器是视力障碍人士用来朗读文档的软件,其工作原理是读取文件的文本内容。扫描的 PDF 没有可供屏幕阅读器查找的文本内容。整个文档对它来说是不可见的。这使得扫描的 PDF 在文档需要可供视力障碍人士使用的任何情况下都成为一个严重的可访问性问题。
在专业和公共部门环境中,这不仅仅是一个礼貌问题 - 许多司法管辖区的可访问性合规性要求适用于数字文档,而纯图像 PDF 不符合这些要求。 OCR 也是这里的技术修复:一旦文本是真实的,屏幕阅读器就可以使用它。
修复比问题听起来更简单
所有这些问题——不可搜索的内容、不可复制的文本、超大文件、可访问性失败——都有相同的根本原因和大致相同的解决方案。通过 OCR 运行扫描的 PDF 以使文本真实,然后对其进行压缩以减小文件大小。两个步骤,文档的行为就像一个正确的 PDF 而不是伪装的照片。对于需要多次使用的文档,在将其存储之前进行操作是值得的,而不是在您已经在解决方法上浪费时间之后进行。
尝试 PDF OCR
无需安装。直接在您的浏览器中工作。
