Tips & Tricks

如何使掃描的 PDF 中的文字可選

掃描的 PDF 顯示您可以用眼睛閱讀的文本,但無法點選、選擇、複製或搜尋。這是因為「文字」是實際上是一張照片——像素排列得像字母。使文字可選擇需要運行 OCR,它會讀取圖像並向文件添加真實的文字層。 OCR 後,PDF 看起來相同,但文字變得可複製、可搜尋和可存取。

How to Make Text Selectable in a Scanned PDF

OCR 對掃描的 PDF 有何作用

OCR(光學字元辨識)分析每個頁面影像中的像素模式,識別與字母和數字相對應的形狀,並建立一個與可見字元對齊的隱藏文字圖層。經過 OCR PDF 處理後,文件有兩層:原始掃描圖像(未更改,仍然可見)和下面的文字層,供查看者在您選擇或搜尋時使用。

文件的視覺外觀不會改變 - OCR 之前和之後的掃描結果看起來相同。改變的是文件的功能:文字變得可以逐個字元選擇,Ctrl+F 搜尋有效,複製貼上會產生真實文本而不是空文本,螢幕閱讀器可以大聲朗讀內容。

WukongPDF

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →

使用WukongPDF的OCR工具

www.wukongpdf.com 的 WukongPDF 在瀏覽器中處理 OCR,無需安裝軟體。上傳掃描的PDF,選擇文件語言以獲得更好的識別準確性,處理並下載可搜尋的結果。轉換後的文件是帶有文字層的標準 PDF - 與每個 PDF 檢視器相容。

下載後立即測試:開啟PDF,按Ctrl+F,搜尋第一頁可以看到的單字。如果找到了,OCR 就起作用了。嘗試選擇並複製一個句子 - 貼上的文字應該與您看到的內容相符。如果未找到任何內容或複製的文字看起來有誤,則 OCR 存在準確性問題,可能是由於掃描品質造成的。

Adobe Acrobat 的增強掃描

Adobe Acrobat Pro 和 Acrobat Standard 包含稱為增強掃描的專用 OCR 功能。開啟掃描的PDF,前往「工具」>「增強掃描>識別文字> 在此文件中。設定文檔語言並點擊識別文字。Acrobat 處理頁面並新增文字圖層。對於多頁文檔,Acrobat 在一次操作中處理所有頁面。

Acrobat 還提供「使可搜尋」功能與完整 OCR 略有不同的選項 - 它添加文字層而不嘗試重建文件結構。對於大多數用途,標準「識別文字」選項更可取,因為它會產生結構正確的 Scanned PDF 以及準確的文字定位。

影響 OCR 準確性的因素

OCR 準確性與掃描品質直接相關。掃描相同的文件可以產生近乎完美的結果;掃描不良會產生錯誤,需要手動更正。

  • 解析度:300 DPI 是可靠 OCR 的最低解析度。低於 200 DPI 時會經常出現錯誤,尤其是在小文本上。 600 DPI 提高了準確性,但會產生較大的文件。
  • 對比:白紙上清晰的黑色文字掃描精度近乎完美。褪色的墨水、彩色紙張或低對比度會產生更多錯誤。
  • 傾斜:以較大角度掃描 頁面會產生更多錯誤。現代 OCR 工具包括糾偏功能以糾正輕微的傾斜,但嚴重的角度會降低準確性。
  • 字體類型:常見字體(Times、Arial、Helvetica)中的標準印刷字體可以準確地辨識。裝飾字體、手寫字體或非常小的字體會產生更多錯誤。

OCR 之後:依賴文字之前檢查

OCR 並不完美——即使是高品質的掃描也會偶爾產生識別錯誤。常見錯誤包括混淆 0 與 O、1 與 l、rn 與 m,以及誤讀頁面邊緣附近的字元。對於準確性很重要的文件(合約、財務報表、法律文件),請在依賴 OCR 輸出之前對照原始文件進行審查。

在 Acrobat Pro 中,尋找和尋找替換功能可以幫助系統地定位常見的OCR錯誤。搜尋“0”並檢查每個結果以查看是否有任何結果應為“O”,或反之亦然。對於重要文檔,對原始掃描件進行全面校對是保證準確性的唯一方法。對於一般參考用途(使檔案可搜尋、擷取文字進行分析),快速抽查通常就足夠了。

WukongPDF

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →