Others

為什麼我無法在 PDF 中搜尋文字?

在 PDF 中按 Ctrl+F 但什麼也沒找到,或者搜尋欄有效,但即使對於您可以在頁面上清楚看到的單字也返回零結果,這是文字層問題。 PDF 不包含可搜尋文本,這意味著您看到的是圖像而不是真實字元。修復方法是 OCR,而且速度比大多數人預期的要快。

Why Can't I Search for Text Inside My PDF?

為什麼有些PDF沒有可搜尋的文字

PDF 可以包含兩種根本不同類型的內容。第一個是真實文字——儲存為文字資料的字符,可以搜尋、選擇和複製。第二個是圖像資料——頁面的照片,其中的字母只是像素,在視覺上與螢幕上的真實文字沒有區別,但結構完全不同。

掃描的文件始終基於影像 - 掃描器對頁面進行拍攝。但即使是數位創建的文檔,如果透過拼合內容進行轉換,從某些設計軟體導出而不保留文本,或者通過打印到圖像工作流程保存,也可能最終變成純圖像。視覺結果看起來相同;只是底層資料結構不同。

WukongPDF

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →

如何檢查您的PDF是否有文字圖層

開啟 PDF 並嘗試點擊並拖曳以選擇單字。如果您可以反白顯示單字,並且所選文字以藍色(或檢視者的選擇顏色)突出顯示,則 PDF 具有真實的文字圖層並且應該是可搜尋的。如果按一下並拖曳在頁面圖像上產生一個矩形選擇框而不是突出顯示特定單字,則該文件是基於圖像的。

第二個測試:嘗試按 Ctrl+A 選擇全部。在基於文字的 PDF 中,文字會在整個文件中反白顯示。在基於影像的 PDF 中,沒有任何明顯的選擇,或整個頁面選擇為單一影像區塊。

修復:運行 OCR

OCR(光學字元辨識)讀取圖像並將其看到的內容轉換為文字字符,從而為 PDF 添加文字層。 OCR 後,文件可搜尋 - Ctrl+F 尋找單字,可以選擇和複製文本,螢幕閱讀器可以解釋內容。

WukongPDF 的 OCR PDF 工具在瀏覽器中處理此問題。上傳基於映像的 PDF,執行 OCR,然後下載可搜尋版本。文件的視覺外觀不會改變 - 頁面看起來相同 - 但基礎資料現在包括搜尋和選擇工具可以使用的文字層。

OCR 準確性取決於原始掃描的品質。在白紙上以 200+ DPI OCR 呈現乾淨、高對比度的黑色文本,準確度為 98-99%。褪色的墨水、低解析度的掃描、不尋常的字體或手寫會產生更多錯誤。對於大多數類型的商業文檔,OCR 結果足夠乾淨,可以立即使用。

當搜尋儘管存在文字但什麼也沒找到時

一個不太常見的情況:PDF 有一個真正的文字圖層,文字選擇有效,但搜尋功能仍然沒有傳回結果。這通常意味著 PDF 檢視器的搜尋索引尚未建立。有些觀眾在打開後在後台建立索引 - 等待幾秒鐘,然後重試。如果問題仍然存在,請嘗試使用更簡單的術語進行不同的搜尋查詢,或在不同的檢視器中開啟檔案。

另一個原因:文字層存在,但由於字型編碼問題,出現亂碼。如果您嘗試複製句子並將其貼上到其他地方並且它顯示為隨機符號,則文字編碼已損壞。 OCR 也解決了這個問題——它透過讀取視覺內容從頭開始重建文字層,用正確的文字替換損壞的編碼。

讓未來PDF始終可搜尋

對於掃描文檔,掃描後立即執行 OCR 意味著每個掃描的 PDF 從提交之日起就可以搜尋。某些掃描器軟體內建 OCR 並自動套用它 - 如果可用,請啟用此設定。對於沒有內建 OCR 的掃描儀,在歸檔之前進行快速的掃描後 OCR 掃描可以為每個文件增加幾秒鐘的時間,當您需要在幾週或幾個月後查找某些內容時,可以節省大量時間。

對於數位建立的文檔,請確保您使用正確的匯出而不是列印到影像。直接從 Word、Google Docs 或任何專業應用程式匯出會自動保留文字圖層。只有當匯出過程對內容進行光柵化時,才會出現可搜尋性問題 - 這通常發生在使用某些驅動程式列印到 PDF 時,或使用明確展平文件的匯出選項時。

WukongPDF

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →