三年前的合約的唯一副本是 PDF,現在打開時會顯示一條錯誤訊息。從現已失效的網站下載的研究報告不會顯示第四頁以外的任何內容。客戶簽署的協定儲存在出現錯誤的磁碟機上,且復原的檔案部分損壞。這些情況令人壓力重重,但並非總是毫無希望。從損壞的 PDF 中恢復文字的可能性比人們預期的要多 — 問題是知道首先嘗試哪種方法。

了解您正在處理什麼樣的損害
並非所有 PDF 損壞都是相同的,恢復方法取決於出現的問題。一些快速觀察可以告訴您很多:
- 檔案根本打不開:檔案頭或內部結構損壞。修復工具需要重建檔案結構,然後才能存取任何內容。
- 檔案打開,但某些頁面為空白或遺失: 部分損壞 — 檔案結構完好,但某些內容物件損壞或遺失。復原可以檢索未損壞的部分。
- 文字顯示為符號或亂碼:字型編碼損壞。文字資料可能完好無損,但字元和字形之間的對應已損壞。
- 檔案非常小(應該大得多時只有幾KB):下載或傳輸不完整。該文件從未完全收到 - 從來源獲取新副本是修復,而不是修復。
嘗試修復 PDF
無需安裝。直接在您的瀏覽器中工作。
先嘗試不同的PDF檢視器
某些在一個檢視器中失敗的檔案在另一個檢視器中可以成功開啟。 Adobe Reader、Chrome 內建的 PDF 檢視器、Apple Preview、Foxit 和 Sumatra PDF 都使用不同的渲染引擎。一個引擎無法解析的檔案可能在另一個引擎的恢復容差範圍內。
如果任何檢視者開啟該文件(即使是部分開啟),請立即嘗試複製所有可見文字(Ctrl+A,然後 Ctrl+C)並將其貼上到 Word 文件中。這將捕獲文件當前狀態下可存取的任何文本,無論文件結構是否可恢復。不完美的文字擷取總比沒有好,甚至可以從嚴重損壞的檔案中捕獲大部分內容。
使用PDF修復工具
專用的 Repair PDF 工具嘗試透過掃描損壞的檔案中可復原的內容物件(文字流、影像、頁面定義)來重建內部檔案結構,並從它能找到的任何內容重建有效的 PDF。這與簡單地打開文件不同;修復工具專門尋找並解決結構損壞。
位於 www.wukongpdf.com 的 WukongPDF 修復工具可以處理此問題 — 上傳損壞的文件,運行修復過程,然後下載可恢復的內容。對於部分損壞的文件,其中大部分內容完好無損,但文件結構已損壞,這通常會產生完全可讀的 PDF。對於嚴重損壞的文件,它可能會恢復部分內容。輸出取決於有多少基礎資料在損壞後倖存下來。
直接從檔案資料擷取文字
PDF 文件將文字儲存在文件結構內的流中。即使 PDF 結構損壞嚴重,檢視者無法呈現文檔,文字流仍然可能完好無損,並且可以使用正確的工具讀取。對於技術上有信心的用戶,在文字編輯器(而不是 PDF 檢視器)中開啟 PDF 可以顯示文件原始資料中嵌入的可讀文字內容 - 在二進位內容中尋找可讀字串。
諸如 pdftotext(poppler 套件的一部分)之類的命令列工具可以從 PDF 中提取無法在標準檢視器中開啟的文字。即使視覺渲染完全失敗,在損壞的檔案上執行 pdftotext 有時也會恢復大量文字內容。這種方法需要熟悉命令列工具,但可以存取 GUI 工具錯過的內容。
特殊情況:損壞的掃描件PDFs
掃描的 PDF 將內容儲存為圖像而不是文字。如果掃描的 PDF 中的影像資料損壞,文字擷取工具將無濟於事 - 沒有文字圖層可供擷取。可恢復的內容是影像資料本身。
對於部分損壞的掃描 PDF,即使檔案結構損壞,恢復影像物件的修復工具也可以產生可檢視的文件。修復後,對恢復的文件運行 OCR 會將圖像內容轉換為可搜尋的文本,使恢復的版本比原始的不可搜尋的掃描更有用。
恢復可以做什麼和不能做什麼
不保證從損壞的 PDF 中恢復文字。成功率取決於損壞的類型和程度:
- 內容完整的結構性損壞:高恢復率 - 內容就在那裡,文件只是無法正確呈現它
- 部分內容損壞:部分恢復 — 某些頁面或部分可恢復,其他頁面或部分遺失
- 被覆蓋的儲存扇區:恢復率很低甚至無法恢復 - 如果底層資料被覆蓋,則沒有工具可以重新建立它
- 下載不完整(文件被截斷):獲取新副本而不是嘗試修復
未來的教訓:對於任何重要的文檔,請在不同的位置保留多份副本。不同磁碟機上的備份、雲端儲存中的副本、給自己的電子郵件 - 這些都提供了復原路徑,使 PDF 修復工具變得不必要。最好的 Repair PDF 場景是您永遠不需要使用的場景。
嘗試修復 PDF
無需安裝。直接在您的瀏覽器中工作。
