PDF 中 Ctrl+F 找不到任何內容,您無法選擇或複製文本,並且單擊文本會繪製一個矩形框而不是突出顯示單詞 - 這是一個沒有文本圖層的文檔。它儲存為圖像而不是文本,這意味著讀者可以看到字符,但軟體無法將它們解釋為字符。

為什麼有些PDF沒有文字層
最常見的原因是掃描。當掃描實體文件並儲存為 PDF 時,結果是包裝在 PDF 容器中的頁面照片。掃描器將文件的外觀捕獲為圖像,但不知道字元是什麼。由於沒有單獨的 OCR 步驟來解釋圖像並添加文字數據,PDF 完全基於圖像。
其他原因:從某些設計軟體導出的 PDF 將所有內容視為圖形而不是將文本保留為文本,PDF 將文本轉換為輪廓(一種修復視覺外觀但破壞文本層的設計技術),以及通過使用手機拍攝文檔而沒有任何應用 OCR 的掃描應用程序創建的 PDF。
嘗試 PDF OCR
無需安裝。直接在您的瀏覽器中工作。
確認問題
最快的測試:嘗試透過點擊並拖曳來選擇一個單字。如果單字或字元被反白顯示,則 PDF 具有文字圖層並且可搜尋 - 在這種情況下,其他原因會導致搜尋失敗(請參閱下方有關損壞文字圖層的部分)。如果無論您拖曳到何處,整個頁面區域都會選擇為矩形,則頁面將儲存為不含文字的圖像。
二次檢查:按Ctrl+A全選。在具有文本圖層的文檔中,這會選擇所有文本,您可以複製它。在純圖像 PDF 中,Ctrl+A 將頁面選擇為整個物件 - 複製時不會將任何文字放置在剪貼簿上。
使用 OCR 新增文字層
OCR(光學字元辨識)可讀取每頁上的影像並新增包含已辨識字元的隱藏文字圖層。文件的視覺外觀不會改變 - 它看起來仍然像原始掃描件 - 但文字變得可選擇、可複製和可搜尋。
WukongPDF 的 OCR PDF 工具在瀏覽器中處理此問題:上傳掃描的 PDF,執行 OCR,然後下載可搜尋版本。對於標準印刷文字的清晰、高對比度掃描,其精確度足夠高,因此生成的文字圖層對於搜尋來說是可靠的。打開處理後的文件並按 Ctrl+F 進行驗證 - 搜尋文件中清晰出現的單字應該立即找到它。
當文字圖層存在但搜尋仍不起作用時
有時 PDF 有可以選擇的文本,但 Ctrl+F 仍然找不到它。這通常歸結為三件事之一。首先,字體編碼可能被破壞 - PDF 有文字數據,但字元映射表已損壞,因此查看者可以突出顯示某些內容,但不知道哪些字元是哪些。其次,OCR 的文字層可能在您搜尋的特定單字中存在錯誤。第三,某些 PDF 使用 Unicode 字元或與標準搜尋行為不符的特殊編碼。
對於編碼問題,透過 PDF 轉換器執行 PDF 來提取並重新嵌入文字有時可以解決字元對應問題。轉換為 Word,強製文字通過乾淨的重新編碼步驟,然後匯出回 PDF 也可以解決因字體編碼損壞而導致的搜尋問題。
防止未來掃描出現問題
如果您定期掃描需要可搜尋的文檔,請將 OCR 建置到掃描工作流程中,而不是事後新增。大多數現代掃描器軟體都可以選擇自動套用 OCR 並直接儲存可搜尋的 PDF。 Microsoft Lens、Adobe Scan 和 Google Drive 的相機功能等手機掃描應用程式均預設應用 OCR,並從一開始就產生可搜尋的 PDF,無需單獨的處理步驟。
嘗試 PDF OCR
無需安裝。直接在您的瀏覽器中工作。
