Tips & Tricks

扫描的 PDF 无法搜索的 4 个原因(以及如何修复)

您扫描一份文档,在 PDF 查看器中打开它,然后尝试搜索一个单词,但什么也没找到。或者您尝试选择一行文本,而光标只是跳过它。该文件看起来像 PDF,但其行为却像照片。这是扫描文档最常见的问题之一,出现这种情况是有特定原因的。以下是其中四个问题,以及解决每个问题的方法。

4 Reasons Your Scanned PDF Is Not Searchable (And How to Fix It)

1。扫描仪将其保存为图像,而不是文本 PDF

这是最常见的原因。当扫描仪捕获物理文档时,它会拍摄页面的照片。如果扫描软件在保存时不应用 OCR(光学字符识别),它只会将该照片包装在 PDF 容器中。结果看起来与普通 PDF 完全相同,但不包含实际文本 - 只是排列成看起来像字母的像素。

您可以通过在 PDF 查看器中按 Ctrl+A(或在 Mac 上按 Cmd+A)来确认这一点。如果未选择任何内容,或者选择整个页面作为单个图像块,则您处理的是纯图像 PDF。

修复方法:通过 OCR PDF 工具运行 PDF。 OCR 读取图像、识别字符,并将真实的、可搜索的文本嵌入到文件中。 www.wukongpdf.com 上的 WukongPDF 的 OCR 工具可以执行此操作 — 上传扫描的 PDF,让 OCR 进程运行,然后下载文本完全可搜索和可选择的版本。

WukongPDF

尝试 Ocr

无需安装。直接在您的浏览器中工作。

立即开始 →

2。扫描质量太低,OCR 无法正常工作

OCR 并不神奇——它的工作原理是分析像素模式并将其与已知的字符形状进行匹配。如果扫描模糊、倾斜、太暗或以非常低的分辨率捕获,OCR 引擎将难以准确地区分字母。结果要么是乱码文本、丢失字符,要么是由于识别的文本与页面上的内容不匹配而仍然无法正确搜索的文件。

可靠 OCR 的最低分辨率通常为 300 DPI。低于该值,准确性会显着下降。倾斜的页面(文档在扫描仪中以微小角度放置)也会引起问题,因为 OCR 引擎需要水平文本行。

解决方法:如果可以重新扫描,请以 300 DPI 或更高的分辨率进行扫描,并将文档平放。如果无法重新扫描,一些 OCR 工具包括图像预处理功能,可以在识别之前消除倾斜并增强扫描效果 - 在放弃质量较差的扫描之前寻找该选项。

3。该文档采用 OCR 引擎不支持的语言

OCR 引擎经过特定语言和字符集的训练。针对拉丁文字语言(英语、法语、西班牙语、德语)优化的引擎将难以处理阿拉伯语、中文、日语、韩语或具有特殊字符的语言。即使在拉丁文字中,大量使用特殊字符、变音符号或不寻常字体的文档也可能导致识别问题。

解决方法:使用明确支持文档语言的 OCR 工具。大多数现代 OCR PDF 工具都会列出其支持的语言 - 在处理之前进行检查。如果使用正确的语言设置后准确性仍然很差,则扫描质量可能是限制因素。

4。 PDF 具有阻止文本提取的安全设置

某些 PDF 被故意配置为防止复制或提取文本。这是通过 PDF 权限设置完成的 - 文档可以正常打开并且看起来完全正常,但文本选择工具被禁用,即使文本在技术上是存在的,搜索也不会返回任何结果。

这种情况在扫描文档中不太常见,而在由创建者故意锁定的 PDF(某些法律文档、受保护的表单或来自具有严格文档控制策略的组织的文件)中更为常见。

您可以通过转到 PDF 查看器中的文档属性(通常在“文件”>“属性”>“安全”下)并查看启用了哪些权限来检查这是否是问题。如果内容复制被列为不允许,这就是您的答案。

大多数扫描的 PDF 都是一步修复

在大多数情况下,不可搜索的扫描 PDF 只需要对其应用 OCR。扫描质量问题是第二个最常见的原因,而且通常也是可以解决的。通过 www.wukongpdf.com 上的 WukongPDF 的 OCR PDF 工具运行您的文件 — 这是从不可搜索的图像 PDF 转换为您可以真正找到所需内容的文档的最快方法。

WukongPDF

尝试 Ocr

无需安装。直接在您的浏览器中工作。

立即开始 →