Others

為什麼我無法從 PDF 複製文字?

無法從 PDF 複製文字的原因有三種完全不同的原因,每種原因都有不同的修復方法。解決一個問題的方法不會對其他問題有幫助,因此診斷您所處的情況可以避免很多挫折感。

Why Can't I Copy Text From My PDF?

原因 1:PDF 是掃描影像

這是最常見的原因。當您掃描實體文件時,掃描器會拍攝頁面並將該照片儲存在 PDF 容器中。您在螢幕上看到的文字是圖像的一部分(排列成看起來像字母的像素),而不是可以選擇或複製的實際文字字元。單擊它就像嘗試從照片複製文字一樣。

快速測試:嘗試點擊並拖曳以突出顯示單字。如果您可以突出顯示單字或字母,則文件中存在真實文字。如果遊標的行為就像您正在選擇影像的矩形,並且只能抓取頁面內容的框,那麼它就是掃描影像。

解決方法是 OCR——光學字元辨識。 OCR 軟體分析圖像、識別文本,並將真實文本圖層新增至 PDF 中,以便可以搜尋、選擇和複製。 OCR 運作後,文件看起來相同,但行為類似於普通的 PDF。 WukongPDF 的 OCR PDF 工具在瀏覽器中執行此操作:上傳掃描的 PDF,對其進行處理,然後下載可搜尋的版本。

WukongPDF

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →

原因 2:複製受到文件擁有者的限制

PDF 有一個權限系統,可以讓創建者限制讀者可以對文件執行的操作。這些限制之一是複製——所有者可以允許閱讀,但阻止文字選擇和複製。如果設定了此限制,您可以在螢幕上查看和閱讀文本,但當您嘗試選擇它時,不會突出顯示任何內容,或者在貼上時不會顯示任何內容。

您可以檢查是否屬於這種情況:在大多數 PDF 檢視器中,請前往“檔案”→“屬性”或“文件屬性”,然後查看“安全性”或“權限”標籤。它將列出允許和限制的內容。如果“內容複製”顯示為“不允許”,則複製限制已啟動。

是否可以取消此限制取決於您是否擁有密碼。如果這是您自己的文件並且您記住了密碼,則任何 PDF 編輯器都會允許您使用密碼開啟它並刪除限制。如果這是其他人發送給您的文檔,並且他們故意限制複製,您需要要求他們發送不受限制的版本。

原因 3:文字複製但出現亂碼

有時,複製在技術上是可行的,但貼上的內容卻是垃圾——隨機字元、符號或順序錯誤的文字。這是字體編碼問題。一些 PDF 使用帶有非標準字元映射的自訂或嵌入字體。 PDF 檢視器可以使用字體以可視方式呈現文本,但是當您嘗試複製底層字元代碼時,它們與您看到的字母不對應。

這種情況最常發生在較舊的 PDF、由某些設計軟體建立的文件或使用不尋常字體編碼的文件中。唯一可靠的修復方法是在文件上執行 OCR,它會重新讀取視覺內容並建立新的、正確的文字圖層。這會用乾淨、可複製的文字替換損壞的編碼。

當文字複製但有格式問題時

一個稍微不同的問題:文字複製正確,但出現錯誤的換行符號、合併的單字或缺少空格。這是 PDF 文字擷取的正常行為。 PDF 將文字儲存為頁面上的定位字符,而不是像 Word 文件那樣儲存為流動段落。當您複製一列文字或多列佈局時,提取器並不總是知道一行在哪裡結束,另一行從哪裡開始。

對於少量文本,手動清理通常是最快的解決方案。對於大量資料(例如,提取整個報告的內容),使用 PDF 轉換器工具將 PDF 轉換為 Word 會比複製貼上提供更清晰的結果,因為轉換過程會嘗試保留文件結構而不是提取原始字元位置。

如何選擇正確的修復

將修復與診斷相符:

  • 無法選擇任何文本,遊標的行為就像圖像 → 運行 OCR
  • 文字可以在螢幕上選擇,但無法貼上 → 檢查文件權限,如果受到限制,請聯絡寄件人
  • 貼上為亂碼 → 運行 OCR 重建文字圖層
  • 複製正確,但格式錯誤 → 對於較大的提取,轉換為 Word,對於較小的提取,手動清理

OCR 路線解決了四種情況中的三種,這就是為什麼如果您不確定發生了什麼,它通常是首先嘗試的原因。經過 OCR 處理的掃描 PDF 的行為與任何普通文字文件一樣 — 完全可搜尋、可選擇和複製。

WukongPDF

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →