您從 PDF 複製文字並將其貼上到其他地方 - 結果看起來不正確。字符順序混亂,連字如“fi”不正確。變成「fi」或消失,單字連在一起沒有空格,或是特殊字元變成問號。這是一個 PDF 文字編碼問題,它有特定的原因來解釋它發生的原因以及可以採取的措施。

PDF 如何儲存文字 — 以及為什麼會出錯
PDF 主要被設計為一種視覺格式——它準確地描述了頁面的外觀,而不是文字的含義。 PDF 中的內部文字編碼可能與標準 Unicode 有很大不同。一些 PDF 使用自訂字形映射,其中內部儲存的字元代碼與標準字母代碼不對應 - 因此,當您複製時,剪貼簿會接收內部代碼而不是您看到的字元。
結構良好的 PDF 包含一個 ToUnicode 映射表,告訴檢視者如何將內部代碼轉換為標準 Unicode 字元。當此表遺失、不完整或不正確時,即使文字在螢幕上完美顯示,複製貼上也會產生亂碼結果。顯示和可複製文字來自不同的系統 - 顯示使用視覺字形,複製貼上使用文字資料。
嘗試 PDF OCR
無需安裝。直接在您的瀏覽器中工作。
連字與特殊字元
連字是印刷組合-「fi」、「fl」、「ff」、「ffi」等。 —出於美觀原因,兩個或三個字元被連接成一個字形。在編碼不良的 PDF 中,連字字形對其表示的各個字元沒有 ToUnicode 對應。複製時,連字要麼變成單一特殊字元(fi 而不是 fi),要麼什麼都沒有,或變成佔位符號。
這就是為什麼從一些專業排版的 PDF 複製會產生缺少字母的文字 - 像「office」這樣的單字。成為「辦公室」因為「ffi」是連字沒有可用的 Unicode 映射。這個詞在螢幕上看起來是正確的;底層文字資料已損壞。
單字之間缺少空格
一些 PDF 將空格表示為位置偏移,而不是文字流中的實際空格字元 - 檢視器透過移動遊標位置而不是插入空格字元來呈現單字之間的間隙。複製時,位置偏移不會轉換為空格字符,因此單字會一起運行:“theword”和“theword”。而不是「這個字」。
當文字間距在設計層級而不是透過標準文字編碼控制時,從 InDesign 或 Illustrator 等設計應用程式匯出的 PDF 中,這種情況很常見。
專欄與閱讀順序問題
在多列 PDF 中,視覺閱讀順序(向下第一列,然後向下第二列)可能與內部文字順序(從左到右穿過整個頁面寬度)不符。從兩列佈局複製文本通常會產生在各列之間逐行交替的文本,即使每個單字都是正確的,也會使其顯得混亂。
這不是編碼問題,而是閱讀順序問題。文字編碼正確;它只是以與人類閱讀方式不匹配的順序儲存。解決方法是一次從一列複製文本,而不是在兩列中進行選擇。
複製文字出現亂碼怎麼辦
- 嘗試不同的PDF檢視器:不同的檢視器以不同的方式處理ToUnicode對應。如果 Chrome 的副本產生亂碼文字,請嘗試從 Adobe Reader 複製 - 它通常會為同一個 PDF 產生更清晰的結果。
- 首先轉換為Word:a PDF 到Word 轉換器在轉換期間重新處理文字編碼。即使原始 PDF 沒有,生成的 Word 文件通常也會產生乾淨的複製貼上。
- 在副本上執行 OCR:OCR 工具重新讀取頁面圖像中的可見文字並建立新的、正確編碼的文字。 OCR PDF 結果可能會產生比原始編碼更好的複製貼上效果,特別是對於編碼不良的專業排版。
- 使用尋找和取代常見錯誤:如果相同的連字或字元始終貼上不正確,請將貼上的結果貼到 Word 中並使用「尋找和尋找」功能。更換以修復整個過程中反覆出現的錯誤。
從源頭預防問題
如果您正在建立 PDF 並希望確保收件者乾淨的複製貼上行為,請使用產生正確 ToUnicode 對應的應用程式。預設情況下,Microsoft Word 會使用正確的 Unicode 映射進行匯出。 Adobe InDesign 可以根據設定匯出使用或不使用正確的文字編碼 - 在匯出 PDF 對話方塊中,確保「使用文件結構進行 Tab 鍵順序」並啟用文字輔助功能選項。在分發之前測試導出的 PDF 的複製貼上,以便在編碼問題到達收件人之前捕獲它們。
嘗試 PDF OCR
無需安裝。直接在您的瀏覽器中工作。
