如何使掃描的 PDF 中的文字可選

掃描的 PDF 顯示您可以用眼睛閱讀的文本，但無法點選、選擇、複製或搜尋。這是因為「文字」是實際上是一張照片——像素排列得像字母。使文字可選擇需要運行 OCR，它會讀取圖像並向文件添加真實的文字層。 OCR 後，PDF 看起來相同，但文字變得可複製、可搜尋和可存取。

How to Make Text Selectable in a Scanned PDF

OCR 對掃描的 PDF 有何作用

OCR（光學字元辨識）分析每個頁面影像中的像素模式，識別與字母和數字相對應的形狀，並建立一個與可見字元對齊的隱藏文字圖層。經過 OCR PDF 處理後，文件有兩層：原始掃描圖像（未更改，仍然可見）和下面的文字層，供查看者在您選擇或搜尋時使用。

文件的視覺外觀不會改變 - OCR 之前和之後的掃描結果看起來相同。改變的是文件的功能：文字變得可以逐個字元選擇，Ctrl+F 搜尋有效，複製貼上會產生真實文本而不是空文本，螢幕閱讀器可以大聲朗讀內容。

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →

使用WukongPDF的OCR工具

www.wukongpdf.com 的 WukongPDF 在瀏覽器中處理 OCR，無需安裝軟體。上傳掃描的PDF，選擇文件語言以獲得更好的識別準確性，處理並下載可搜尋的結果。轉換後的文件是帶有文字層的標準 PDF - 與每個 PDF 檢視器相容。

下載後立即測試：開啟PDF，按Ctrl+F，搜尋第一頁可以看到的單字。如果找到了，OCR 就起作用了。嘗試選擇並複製一個句子 - 貼上的文字應該與您看到的內容相符。如果未找到任何內容或複製的文字看起來有誤，則 OCR 存在準確性問題，可能是由於掃描品質造成的。

Adobe Acrobat 的增強掃描

Adobe Acrobat Pro 和 Acrobat Standard 包含稱為增強掃描的專用 OCR 功能。開啟掃描的PDF，前往「工具」>「增強掃描>識別文字> 在此文件中。設定文檔語言並點擊識別文字。Acrobat 處理頁面並新增文字圖層。對於多頁文檔，Acrobat 在一次操作中處理所有頁面。

Acrobat 還提供「使可搜尋」功能與完整 OCR 略有不同的選項 - 它添加文字層而不嘗試重建文件結構。對於大多數用途，標準「識別文字」選項更可取，因為它會產生結構正確的 Scanned PDF 以及準確的文字定位。

影響 OCR 準確性的因素

OCR 準確性與掃描品質直接相關。掃描相同的文件可以產生近乎完美的結果；掃描不良會產生錯誤，需要手動更正。

解析度：300 DPI 是可靠 OCR 的最低解析度。低於 200 DPI 時會經常出現錯誤，尤其是在小文本上。 600 DPI 提高了準確性，但會產生較大的文件。
對比：白紙上清晰的黑色文字掃描精度近乎完美。褪色的墨水、彩色紙張或低對比度會產生更多錯誤。
傾斜：以較大角度掃描 頁面會產生更多錯誤。現代 OCR 工具包括糾偏功能以糾正輕微的傾斜，但嚴重的角度會降低準確性。
字體類型：常見字體（Times、Arial、Helvetica）中的標準印刷字體可以準確地辨識。裝飾字體、手寫字體或非常小的字體會產生更多錯誤。

OCR 之後：依賴文字之前檢查

OCR 並不完美——即使是高品質的掃描也會偶爾產生識別錯誤。常見錯誤包括混淆 0 與 O、1 與 l、rn 與 m，以及誤讀頁面邊緣附近的字元。對於準確性很重要的文件（合約、財務報表、法律文件），請在依賴 OCR 輸出之前對照原始文件進行審查。

在 Acrobat Pro 中，尋找和尋找替換功能可以幫助系統地定位常見的OCR錯誤。搜尋“0”並檢查每個結果以查看是否有任何結果應為“O”，或反之亦然。對於重要文檔，對原始掃描件進行全面校對是保證準確性的唯一方法。對於一般參考用途（使檔案可搜尋、擷取文字進行分析），快速抽查通常就足夠了。

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →