在 PDF 中按 Ctrl+F 但什么也没找到,或者搜索栏有效,但即使对于您可以在页面上清楚看到的单词也返回零结果,这是文本层问题。 PDF 不包含可搜索文本,这意味着您看到的是图像而不是真实字符。修复方法是 OCR,而且速度比大多数人预期的要快。

为什么有些PDF没有可搜索的文本
PDF 可以包含两种根本不同类型的内容。第一个是真实文本——存储为文本数据的字符,可以搜索、选择和复制。第二个是图像数据——页面的照片,其中的字母只是像素,在视觉上与屏幕上的真实文本没有区别,但结构完全不同。
扫描的文档始终基于图像 - 扫描仪对页面进行拍摄。但即使是数字创建的文档,如果通过拼合内容进行转换,从某些设计软件导出而不保留文本,或者通过打印到图像工作流程保存,也可能最终变成纯图像。视觉结果看起来相同;只是底层数据结构不同。
尝试 PDF OCR
无需安装。直接在您的浏览器中工作。
如何检查您的PDF是否有文本层
打开 PDF 并尝试单击并拖动以选择单个单词。如果您可以突出显示单个单词,并且所选文本以蓝色(或查看者的选择颜色)突出显示,则 PDF 具有真实的文本层并且应该是可搜索的。如果单击并拖动在页面图像上产生一个矩形选择框而不是突出显示特定单词,则该文档是基于图像的。
第二个测试:尝试按 Ctrl+A 选择全部。在基于文本的 PDF 中,文本会在整个文档中突出显示。在基于图像的 PDF 中,没有任何明显的选择,或者整个页面选择为单个图像块。
修复:运行 OCR
OCR(光学字符识别)读取图像并将其看到的内容转换为文本字符,从而向 PDF 添加文本层。 OCR 后,文档可搜索 - Ctrl+F 查找单词,可以选择和复制文本,屏幕阅读器可以解释内容。
WukongPDF 的 OCR PDF 工具在浏览器中处理此问题。上传基于图像的 PDF,运行 OCR,然后下载可搜索版本。文档的视觉外观不会改变 - 页面看起来相同 - 但基础数据现在包括搜索和选择工具可以使用的文本层。
OCR 准确性取决于原始扫描的质量。在白纸上以 200+ DPI OCR 呈现干净、高对比度的黑色文本,准确度为 98-99%。褪色的墨水、低分辨率的扫描、不寻常的字体或手写会产生更多错误。对于大多数类型的商业文档,OCR 结果足够干净,可以立即使用。
当搜索尽管存在文本但什么也没找到时
一种不太常见的情况:PDF 有一个真正的文本层,文本选择有效,但搜索功能仍然没有返回结果。这通常意味着 PDF 查看器的搜索索引尚未建立。有些观众在打开后在后台建立索引 - 等待几秒钟,然后重试。如果问题仍然存在,请尝试使用更简单的术语进行不同的搜索查询,或在不同的查看器中打开文件。
另一个原因:文本层存在,但由于字体编码问题,出现乱码。如果您尝试复制一个句子并将其粘贴到其他地方并且它显示为随机符号,则文本编码已损坏。 OCR 也解决了这个问题——它通过读取视觉内容从头开始重建文本层,用正确的文本替换损坏的编码。
让未来PDF始终可搜索
对于扫描文档,扫描后立即运行 OCR 意味着每个扫描的 PDF 从提交之日起就可以搜索。某些扫描仪软件内置 OCR 并自动应用它 - 如果可用,请启用此设置。对于没有内置 OCR 的扫描仪,在归档之前进行快速的扫描后 OCR 扫描可以为每个文档增加几秒钟的时间,并且当您需要在几周或几个月后查找某些内容时,可以节省大量时间。
对于数字创建的文档,请确保您使用正确的导出而不是打印到图像。直接从 Word、Google Docs 或任何专业应用程序导出会自动保留文本图层。仅当导出过程对内容进行光栅化时,才会出现可搜索性问题 - 这通常发生在使用某些驱动程序打印到 PDF 时,或者使用显式展平文档的导出选项时。
尝试 PDF OCR
无需安装。直接在您的浏览器中工作。
