Tips & Tricks

如何从损坏的 PDF 中恢复文本

三年前的合同的唯一副本是 PDF,现在打开时会显示一条错误消息。从现已失效的网站下载的研究报告不会显示第四页以外的任何内容。客户签署的协议存储在出现错误的驱动器上,并且恢复的文件部分损坏。这些情况令人压力重重,但并不总是毫无希望。从损坏的 PDF 中恢复文本的可能性比人们预期的要多 — 问题是知道首先尝试哪种方法。

How to Recover Text From a Damaged PDF

了解您正在处理什么样的损害

并非所有 PDF 损坏都是相同的,恢复方法取决于出现的问题。一些快速观察可以告诉您很多信息:

  • 文件根本打不开:文件头或内部结构损坏。修复工具需要重建文件结构,然后才能访问任何内容。
  • 文件打开,但某些页面为空白或丢失: 部分损坏 — 文件结构完好,但某些内容对象损坏或丢失。恢复可以检索未损坏的部分。
  • 文本显示为符号或乱码:字体编码损坏。文本数据可能完好无损,但字符和字形之间的映射已损坏。
  • 文件非常小(应该大得多时只有几KB):下载或传输不完整。该文件从未完全收到 - 从源获取新副本是修复,而不是修复。
WukongPDF

尝试修复 PDF

无需安装。直接在您的浏览器中工作。

立即开始 →

先尝试不同的PDF查看器

某些在一个查看器中失败的文件在另一查看器中可以成功打开。 Adobe Reader、Chrome 的内置 PDF 查看器、Apple Preview、Foxit 和 Sumatra PDF 都使用不同的渲染引擎。一个引擎无法解析的文件可能在另一个引擎的恢复容差范围内。

如果任何查看者打开该文件(即使是部分打开),请立即尝试复制所有可见文本(Ctrl+A,然后 Ctrl+C)并将其粘贴到 Word 文档中。这将捕获文件当前状态下可访问的任何文本,无论文件结构是否可恢复。不完美的文本提取总比没有好,甚至可以从严重损坏的文件中捕获大部分内容。

使用PDF修复工具

专用的 Repair PDF 工具尝试通过扫描损坏的文件中可恢复的内容对象(文本流、图像、页面定义)来重建内部文件结构,并从它能找到的任何内容重建有效的 PDF。这与简单地打开文件不同;修复工具专门寻找并解决结构损坏。

位于 www.wukongpdf.com 的 WukongPDF 修复工具可以处理此问题 — 上传损坏的文件,运行修复过程,然后下载可恢复的内容。对于部分损坏的文件,其中大部分内容完好无损,但文件结构已损坏,这通常会生成完全可读的 PDF。对于严重损坏的文件,它可能会恢复部分内容。输出取决于有多少基础数据在损坏后幸存下来。

直接从文件数据中提取文本

PDF 文件将文本存储在文件结构内的流中。即使 PDF 结构损坏严重,查看者无​​法呈现文档,文本流仍然可能完好无损,并且可以使用正确的工具读取。对于技术上有信心的用户,在文本编辑器(而不是 PDF 查看器)中打开 PDF 可以显示文件原始数据中嵌入的可读文本内容 - 在二进制内容中查找可读字符串。

诸如 pdftotext(poppler 包的一部分)之类的命令行工具可以从 PDF 中提取无法在标准查看器中打开的文本。即使视觉渲染完全失败,在损坏的文件上运行 pdftotext 有时也会恢复大量文本内容。这种方法需要熟悉命令行工具,但可以访问 GUI 工具错过的内容。

特殊情况:损坏的扫描件PDFs

扫描的 PDF 将内容存储为图像而不是文本。如果扫描的 PDF 中的图像数据损坏,文本提取工具将无济于事 - 没有文本层可供提取。可恢复的内容是图像数据本身。

对于部分损坏的扫描 PDF,即使文件结构损坏,恢复图像对象的修复工具也可以生成可查看的文档。修复后,对恢复的文档运行 OCR 会将图像内容转换为可搜索的文本,使恢复的版本比原始的不可搜索的扫描更有用。

恢复可以做什么和不能做什么

不保证从损坏的 PDF 中恢复文本。成功率取决于损坏的类型和程度:

  • 内容完整的结构性损坏:高恢复率 - 内容就在那里,文件只是无法正确呈现它
  • 部分内容损坏:部分恢复 — 某些页面或部分可恢复,其他页面或部分丢失
  • 被覆盖的存储扇区:恢复率很低甚至无法恢复 - 如果底层数据被覆盖,则没有工具可以重新创建它
  • 下载不完整(文件被截断):获取新副本而不是尝试修复

未来的教训:对于任何重要的文档,请在不同的位置保留多份副本。不同驱动器上的备份、云存储中的副本、给自己的电子邮件 - 这些都提供了恢复路径,使 PDF 修复工具变得不必要。最好的 Repair PDF 场景是您永远不需要使用的场景。

WukongPDF

尝试修复 PDF

无需安装。直接在您的浏览器中工作。

立即开始 →