Others

为什么我无法从 PDF 复制文本?

无法从 PDF 复制文本的原因有三种完全不同的原因,每种原因都有不同的修复方法。解决一个问题的方法不会对其他问题有帮助,因此诊断您所处的情况可以避免很多挫败感。

Why Can't I Copy Text From My PDF?

原因 1:PDF 是扫描图像

这是最常见的原因。当您扫描物理文档时,扫描仪会拍摄页面并将该照片保存在 PDF 容器中。您在屏幕上看到的文本是图像的一部分(排列成看起来像字母的像素),而不是可以选择或复制的实际文本字符。单击它就像尝试从照片中复制文本一样。

快速测试:尝试单击并拖动以突出显示单个单词。如果您可以突出显示单个单词或字母,则文件中存在真实文本。如果光标的行为就像您正在选择图像的矩形,并且只能抓取页面内容的框,那么它就是扫描图像。

解决方法是 OCR——光学字符识别。 OCR 软件分析图像、识别文本,并将真实文本图层添加到 PDF 中,以便可以搜索、选择和复制。 OCR 运行后,文档看起来相同,但行为类似于普通的 PDF。 WukongPDF 的 OCR PDF 工具在浏览器中执行此操作:上传扫描的 PDF,对其进行处理,然后下载可搜索的版本。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

原因 2:复制受到文档所有者的限制

PDF 有一个权限系统,可以让创建者限制读者可以对文档执行的操作。这些限制之一是复制——所有者可以允许阅读,但阻止文本选择和复制。如果设置了此限制,您可以在屏幕上查看和阅读文本,但当您尝试选择它时,不会突出显示任何内容,或者在粘贴时不会显示任何内容。

您可以检查是否属于这种情况:在大多数 PDF 查看器中,转到“文件”→“属性”或“文档属性”,然后查看“安全”或“权限”选项卡。它将列出允许和限制的内容。如果“内容复制”显示为“不允许”,则复制限制已激活。

是否可以取消此限制取决于您是否拥有密码。如果这是您自己的文档并且您记住了密码,则任何 PDF 编辑器都会允许您使用密码打开它并删除限制。如果这是其他人发送给您的文档,并且他们故意限制复制,您需要要求他们发送不受限制的版本。

原因 3:文本复制但出现乱码

有时,复制在技术上是可行的,但粘贴的内容却是垃圾——随机字符、符号或顺序错误的文本。这是字体编码问题。一些 PDF 使用带有非标准字符映射的自定义或嵌入字体。 PDF 查看器可以使用字体以可视方式呈现文本,但是当您尝试复制底层字符代码时,它们与您看到的字母不对应。

这种情况最常发生在较旧的 PDF、由某些设计软件创建的文档或使用不寻常字体编码的文件中。唯一可靠的修复方法是在文档上运行 OCR,它会重新读取可视内容并创建新的、正确的文本层。这会用干净、可复制的文本替换损坏的编码。

当文本复制但存在格式问题时

一个稍微不同的问题:文本复制正确,但出现错误的换行符、合并的单词或缺少空格。这是 PDF 文本提取的正常行为。 PDF 将文本存储为页面上的定位字符,而不是像 Word 文档那样存储为流动段落。当您复制一列文本或多列布局时,提取器并不总是知道一行在哪里结束,另一行从哪里开始。

对于少量文本,手动清理通常是最快的解决方案。对于大量数据(例如,提取整个报告的内容),使用 PDF 转换器工具将 PDF 转换为 Word 会比复制粘贴提供更清晰的结果,因为转换过程会尝试保留文档结构而不是提取原始字符位置。

如何选择正确的修复

将修复与诊断相匹配:

  • 无法选择任何文本,光标的行为就像图像 → 运行 OCR
  • 文本可以在屏幕上选择,但无法粘贴 → 检查文档权限,如果受到限制,请联系发件人
  • 粘贴为乱码 → 运行 OCR 重建文本图层
  • 复制正确,但格式错误 → 对于较大的提取,转换为 Word,对于较小的提取,手动清理

OCR 路线解决了四种情况中的三种,这就是为什么如果您不确定发生了什么,它通常是首先尝试的原因。经过 OCR 处理的扫描 PDF 的行为与任何普通文本文档一样 — 完全可搜索、可选择和复制。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →