Others

为什么我的 PDF 不可搜索?

PDF 中 Ctrl+F 找不到任何内容,您无法选择或复制文本,并且单击文本会绘制一个矩形框而不是突出显示单个单词 - 这是一个没有文本图层的文档。它存储为图像而不是文本,这意味着读者可以看到字符,但软件无法将它们解释为字符。

Why Is My PDF Not Searchable?

为什么有些PDF没有文本层

最常见的原因是扫描。当扫描物理文档并另存为 PDF 时,结果是包装在 PDF 容器中的页面照片。扫描仪将文档的外观捕获为图像,但不知道字符是什么。由于没有单独的 OCR 步骤来解释图像并添加文本数据,PDF 完全基于图像。

其他原因:从某些设计软件导出的 PDF 将所有内容视为图形而不是将文本保留为文本,PDF 将文本转换为轮廓(一种修复视觉外观但破坏文本层的设计技术),以及通过使用手机拍摄文档而没有任何应用 OCR 的扫描应用程序创建的 PDF。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

确认问题

最快的测试:尝试通过单击并拖动来选择一个单词。如果单个单词或字符突出显示,则 PDF 具有文本层并且可搜索 - 在这种情况下,其他原因会导致搜索失败(请参阅下面有关损坏文本层的部分)。如果无论您拖动到何处,整个页面区域都选择为矩形,则页面将存储为不带文本的图像。

二次检查:按Ctrl+A全选。在带有文本图层的文档中,这会选择所有文本,您可以复制它。在纯图像 PDF 中,Ctrl+A 将页面选择为整个对象 - 复制时不会将任何文本放置在剪贴板上。

使用 OCR 添加文本层

OCR(光学字符识别)读取每页上的图像并添加包含已识别字符的隐藏文本层。文档的视觉外观不会改变 - 它看起来仍然像原始扫描件 - 但文本变得可选择、可复制和可搜索。

WukongPDF 的 OCR PDF 工具在浏览器中处理此问题:上传扫描的 PDF,运行 OCR,然后下载可搜索版本。对于标准印刷文本的清晰、高对比度扫描,其精度足够高,因此生成的文本图层对于搜索来说是可靠的。打开处理后的文件并按 Ctrl+F 进行验证 - 搜索文档中清晰出现的单词应该立即找到它。

当文本层存在但搜索仍不起作用时

有时 PDF 有可以选择的文本,但 Ctrl+F 仍然找不到它。这通常归结为三件事之一。首先,字体编码可能被破坏 - PDF 有文本数据,但字符映射表已损坏,因此查看者可以突出显示某些内容,但不知道哪些字符是哪些。其次,OCR 的文本层可能在您搜索的特定单词中存在错误。第三,某些 PDF 使用 Unicode 字符或与标准搜索行为不匹配的特殊编码。

对于编码问题,通过 PDF 转换器运行 PDF 来提取并重新嵌入文本有时可以解决字符映射问题。转换为 Word,强制文本通过干净的重新编码步骤,然后导出回 PDF 也可以解决因字体编码损坏而导致的搜索问题。

防止未来扫描中出现问题

如果您定期扫描需要可搜索的文档,请将 OCR 构建到扫描工作流程中,而不是事后添加。大多数现代扫描仪软件都可以选择自动应用 OCR 并直接保存可搜索的 PDF。 Microsoft Lens、Adobe Scan 和 Google Drive 的相机功能等手机扫描应用程序均默认应用 OCR,并从一开始就生成可搜索的 PDF,无需单独的处理步骤。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →