Others

什麼是 OCR 以及它如何與 PDF 搭配使用?

OCR 代表光學字元辨識。這項技術可以從圖像(包括掃描文件、頁面照片和純圖像 PDF)中讀取文本,並將所看到的內容轉換為電腦可以處理的實際文本資料。如果您曾經掃描過文件並想知道為什麼無法搜尋或複製文本,OCR 就是解決方案。

What Is OCR and How Does It Work With PDFs?

OCR 解決的問題

當您掃描文件時,掃描器會擷取頁面的照片。對於電腦來說,這張照片只是像素——排列在網格上的彩色點。從電腦的角度來看,您在圖像中看到的文字並不以文字形式存在。它無法搜尋、複製、翻譯或大聲朗讀它們。

OCR 彌補了這一差距。它分析影像中的像素模式,識別與字母和數字相對應的形狀,並將這些形狀轉換為實際的文字字元。經過 OCR PDF 處理後,文件有兩層:原始影像(看起來仍然一模一樣)和電腦可以讀取、搜尋和處理的隱藏文字層。

WukongPDF

試試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →

OCR 實際運作原理

現代 OCR 系統使用經過數百萬份文件影像訓練的機器學習模型。當處理一個頁面時,系統會經歷幾個階段:

  • 影像預處理:影像被清理-如果傾斜,則將其拉直,增強對比度,減少雜訊。更清晰的影像可以產生更準確的辨識。
  • 版面分析:系統辨識頁面的結構-文字區塊在哪裡、圖像在哪裡、閱讀順序、列邊界、表格單元格。
  • 字元辨識:模型分析每個字元形狀並分配最可能的字母、數字或符號。它考慮上下文——「他」。更有可能是「the」 ——提高準確性。
  • 文字圖層建立:將辨識的字元組裝成單字和句子,定位為與原始影像對齊,並作為可搜尋文字圖層嵌入到PDF中。

影響 OCR 準確性的因素

OCR 準確度根據來源影像的品質和所識別的內容的不同而有很大差異:

  • 掃描解析度:更高的 DPI 可產生更清晰的字元邊緣和更好的辨識效果。 300 DPI 是可靠 OCR 的建議最低設定。低於 150 DPI 的影像通常會產生嚴重錯誤。
  • 字體類型:常見字體(Times、Arial、Helvetica)中的標準印刷字體可高精度識別。裝飾字體、不尋常的字體和非常小的文字會產生更多錯誤。
  • 文件狀況:紙張泛黃、墨水褪色、污跡、掃描傾斜和陰影都會降低識別品質。乾淨、直接、高對比的掃描可產生最佳結果。
  • 語言:常用語言(英語、西班牙語、法語、德語、中文、日語)訓練資料豐富,準確率高。不太常見的語言和腳本可能會有更多錯誤。
  • 手寫:OCR 列印文字非常準確。手寫辨識是一個不同的、更困難的問題——準確度因手寫風格和所使用的具體模型而異。

結果是什麼樣的

OCR 後,PDF 看起來與之前相同 - 原始掃描影像沒有變化。這種差異肉眼看不見,但在功能上卻很顯著。該文件現在有一個與圖像對齊的隱藏文字圖層。當您搜尋單字時,查看者會在文字圖層中找到它並在圖像中突出顯示它。當您選擇並複製文字時,您是從文字圖層複製。當螢幕閱讀器播報內容時,它會讀取文字層。

影像圖層和文字圖層是分開的-OCR 不會以任何方式改變原始掃描件。如果OCR出現錯誤,圖像仍然顯示正確的原文;只有隱藏文字層包含錯誤。

如何對 PDF 套用 OCR

www.wukongpdf.com 上的 WukongPDF 的 OCR PDF 工具可以处理此问题,无需桌面软件 - 上传扫描的 PDF,选择文档语言以提高准确性,处理并下载可搜索结果。對於標準文檔,該操作通常需要 10-30 秒。

Adobe Acrobat Pro 具有內建 OCR 功能(工具 > 增強掃描 > 識別文字)以及用於控制識別品質和處理多頁文件的附加選項。對於處理大量掃描文件的組織,Acrobat 的批次 OCR 功能可自動處理整個資料夾的檔案。

WukongPDF

試試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →