Google 雲端硬碟包含內建 OCR,當您使用 Google 文件開啟掃描的 PDF 時,功能會自動運作。它是免費的,不需要額外的軟體,並且可以很好地處理大多數常見文件。雖然存在一些值得了解的限制,但對於簡單的掃描文本,它可以可靠地處理工作。

如何做
將掃描的 PDF 上傳到 Google 雲端硬碟。上傳後,右鍵單擊該文件並選擇開啟方式 → Google 文件。雲端硬碟在轉換過程中自動執行 OCR,並將結果作為可編輯的 Google 文件文件開啟。原始 PDF 在雲端硬碟中保持不變 - Google 在其旁邊建立了一個新的文件檔案。
轉換後的文件在上部包含已識別的文本,下面是每個原始頁面的圖像。這種雙層方法可以讓您看到 Google 識別的內容與原始頁面實際顯示的內容,這對於透過並排比較兩者來捕獲 OCR 錯誤非常有用。
嘗試 PDF OCR
無需安裝。直接在您的瀏覽器中工作。
它的優點
對於常見語言的標準印刷文字的清晰、高對比度掃描,Google Drive 的 OCR 是準確的。以 200 DPI 或更高的解析度掃描的專業列印文件通常可以很少出現轉換錯誤。它可以處理多種語言,並且通常可以識別混合語言文檔,而無需任何特殊配置。
輸出可以立即在 Google 文件中進行編輯,如果您需要更改文本,這會很方便。如果下游需要,您也可以從文件匯出回 PDF(文件 → 下載 → PDF 文件)或 Word 格式。
不足之處
Google Drive 的 OCR 不會保留原始文件佈局。表格以純文字顯示,多列格式線性化,任何複雜的格式都會遺失。辨識的文字是純段落-從視覺上看,與來源文件完全不同。
對於需要保留版面配置的文件(需要重新分發的表單、應保留其原始設計的報告),Google Drive OCR 會為您提供文字內容,但您需要手動重新套用格式。對於只需要文字內容來搜尋、編輯或提取資料的文檔,缺乏格式並不重要。
低品質的掃描、褪色的文字、手寫和不尋常的字體會產生明顯更多的錯誤。 CJK 字元(中文、日文、韓文)在 Google 的 OCR 引擎中普遍得到改進,但對於複雜文字的準確性仍然落後於拉丁文字。
當專用 OCR 工具更好時
如果您需要保持 PDF 格式的 OCR 輸出(可搜尋的 PDF 而不是 Google 文件),Google Drive 不是合適的工具。它轉換為文檔文件,而不是返回為帶有文字圖層的 PDF。為此,WukongPDF 的 OCR PDF 工具處理掃描並返回 PDF,其中文本可供選擇和搜索,同時保留原始文檔的視覺外觀。這通常是人們說他們想要「OCR a PDF」時的意思。 — 他們想要回相同的文檔,只是帶有可識別的文字而不是圖像。
對於許多文檔的批量 OCR,或者對於困難內容的準確性很重要的文檔,ABBYY FineReader 等專用 OCR 軟體可以提供比 Google Drive 更好的結果,但代價是成為付費產品。對於乾淨掃描文件的日常免費 OCR,Google Drive 處理得足夠好,以至於大多數人不需要其他任何東西。
嘗試 PDF OCR
無需安裝。直接在您的瀏覽器中工作。
