您掃描一份文檔,在 PDF 檢視器中打開它,然後嘗試搜尋一個單詞,但什麼也沒找到。或者您嘗試選擇一行文本,而遊標只是跳過它。該文件看起來像 PDF,但其行為卻像照片。這是掃描文件最常見的問題之一,出現這種情況是有特定原因的。以下是其中四個問題,以及解決每個問題的方法。

1。掃描器將其儲存為圖像,而不是文字 PDF
這是最常見的原因。當掃描器捕獲實體文件時,它會拍攝頁面的照片。如果掃描軟體在儲存時無法套用 OCR(光學字元辨識),它只會將該照片包裝在 PDF 容器中。結果看起來與普通 PDF 完全相同,但不包含實際文字 - 只是排列成看起來像字母的像素。
您可以透過在 PDF 檢視器中按 Ctrl+A(或在 Mac 上按 Cmd+A)來確認這一點。如果未選擇任何內容,或選擇整個頁面作為單一影像區塊,則您處理的是純影像 PDF。
修復方法:透過 OCR PDF 工具執行 PDF。 OCR 讀取圖像、識別字符,並將真實的、可搜尋的文字嵌入文件中。 www.wukongpdf.com 上的 WukongPDF 的 OCR 工具可以執行此操作 — 上傳掃描的 PDF,讓 OCR 進程運行,然後下載文字完全可搜尋和可選擇的版本。
嘗試 Ocr
無需安裝。直接在您的瀏覽器中工作。
2。掃描品質太低,OCR 無法正常運作
OCR 並不神奇——它的工作原理是分析像素模式並將其與已知的字元形狀進行匹配。如果掃描模糊、傾斜、太暗或以非常低的解析度捕獲,OCR 引擎將難以準確地區分字母。結果要么是亂碼文字、丟失字符,要么是由於識別的文本與頁面上的內容不匹配而仍然無法正確搜索的文件。
可靠 OCR 的最低解析度通常為 300 DPI。低於該值,準確度會顯著下降。傾斜的頁面(文件在掃描器中以微小角度放置)也會造成問題,因為 OCR 引擎需要水平文字行。
解決方法:如果可以重新掃描,請以 300 DPI 或更高的解析度進行掃描,並將文件平放。如果無法重新掃描,一些 OCR 工具包括影像預處理功能,可在識別之前消除傾斜並增強掃描效果 - 在放棄品質較差的掃描之前尋找該選項。
3。該文件採用 OCR 引擎不支援的語言
OCR 引擎经过特定语言和字符集的训练。針對拉丁文字語言(英語、法語、西班牙語、德語)優化的引擎將難以處理阿拉伯語、中文、日語、韓語或具有特殊字元的語言。即使在拉丁文字中,大量使用特殊字符、变音符号或不寻常字体的文档也可能导致识别问题。
解決方法:使用明確支援文檔語言的 OCR 工具。大多數現代 OCR PDF 工具都會列出其支援的語言 - 在處理之前進行檢查。如果使用正確的語言設定後準確性仍然很差,則掃描品質可能是限制因素。
4。 PDF 具有阻止文字擷取的安全設定
某些 PDF 被故意配置為防止複製或提取文字。這是透過 PDF 權限設定完成的 - 文件可以正常開啟並且看起來完全正常,但文字選取工具已停用,即使文字在技術上是存在的,搜尋也不會傳回任何結果。
這種情況在掃描文件中不太常見,而在由創建者故意鎖定的 PDF(某些法律文件、受保護的表單或來自具有嚴格文件控制策略的組織的文件)中更為常見。
您可以透過前往 PDF 檢視器中的文件屬性(通常在「檔案」>「屬性」>「安全性」下)並查看啟用了哪些權限來檢查這是否是問題。如果內容複製被列為不允許,這就是您的答案。
大多數掃描的 PDF 都是一步修復
在大多數情況下,不可搜尋的掃描 PDF 只需要對其套用 OCR。掃描品質問題是第二個最常見的原因,而且通常也是可以解決的。透過 www.wukongpdf.com 上的 WukongPDF 的 OCR PDF 工具運行您的文件 — 這是從不可搜尋的圖像 PDF 轉換為您可以真正找到所需內容的文件的最快方法。
嘗試 Ocr
無需安裝。直接在您的瀏覽器中工作。
