Tips & Tricks

如何使 PDF 可搜尋

可搜尋的 PDF 是一種文字在文件中儲存為實際字元而不是圖像的檔案。當您按 Ctrl+F 並鍵入單字時,查看者可以找到它。當您選擇文字並複製它時,會複製真實的字元。對於數字創建的 PDF,這是自動的。對於掃描的 PDF,您需要 OCR 來新增文字圖層。

How to Make a PDF Searchable

如何判斷 PDF 是否已可搜尋

開啟 PDF 並嘗試透過點擊並拖曳來選擇一個單字。如果單字被反白並且您可以複製它們,則 PDF 已經有一個文字圖層 - 可以搜尋。如果按一下在整個區域上繪製矩形選取範圍而不是選擇特定單字,則頁面將儲存為沒有文字圖層的圖像。這時候你就需要 OCR 了。

WukongPDF

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →

執行 OCR 以新增文字層

WukongPDF 的 OCR PDF 工具在瀏覽器中處理掃描的 PDF,並傳回一個版本,其中文字被辨識並嵌入到原始掃描影像旁邊。頁面看起來相同 - 相同的視覺外觀,相同的掃描品質 - 但 Ctrl+F 現在可以找到可以選擇和複製的單字和文字。上傳掃描的 PDF,執行 OCR,然後下載可搜尋版本。

Adobe Acrobat Pro 在「工具」→「掃描和掃描」下也擁有強大的 OCR 引擎。 OCR → 辨識文字。它在困難掃描(褪色的文字、不尋常的字體、非拉丁文字)上的準確性通常優於瀏覽器工具,儘管對於標準列印文字來說差異很小。如果您正在處理大量文件且準確性很重要,那麼 Acrobat 的 OCR 值得投資。

OCR 準確性和語言支援

OCR 準確性在很大程度上取決於掃描品質。以 200 DPI 或更高的解析度對專業列印文件進行乾淨、高對比度的掃描通常可以實現 98-99% 的字元準確度 — 對於實際用途來說基本上沒有錯誤。褪色的複印件、以一定角度拍攝的掃描件或帶有手寫註釋的文檔都會有更多錯誤,需要手動更正。

大多數 OCR 工具會自動偵測文件語言,並使用特定於語言的模型來提高準確性。如果文件始終錯誤識別特定字符,請檢查是否正確檢測到語言 - 在 OCR 設定中強制使用正確的語言通常會產生明顯的差異,特別是對於帶有重音字符或非拉丁腳本的文檔。

使 PDF 可搜尋以進行長期存檔

將紙本檔案數位化的組織通常將可搜尋性作為主要目標——能夠在數年後在數千個文件中找到特定文件或條款。對於此用例,OCR 輸出應以專為長期保存而設計的格式儲存。 PDF/A-3 支援頁面影像旁嵌入的文字圖層,是專為可搜尋文件檔案設計的檔案標準。執行 OCR,然後使用檔案設定轉換為 PDF 壓縮,可確保可搜尋性和長期格式穩定性。

對於存檔目的來說,即使不完美的 OCR 也比沒有 OCR 好得多。字元準確度為 95% 的文件仍可搜尋 — 搜尋「發票」即可即使某些單字中的幾個字元被誤讀,也會找到大多數發票。完美的OCR是理想的;功能性 OCR 仍然比沒有文字層的掃描有用得多。

WukongPDF

嘗試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →