Others

為什麼掃描文件比您想像的更難處理

掃描文件並將其另存為 PDF 感覺像是一個已解決的問題。你把紙放進去,你就會得到一個文件,它看起來就像一個普通的PDF。工作完成了。但事實並非如此——並非如此。掃描的 PDF 看起來像文檔,但行為卻像照片,這種區別產生了數量驚人的實際問題,讓人們在實際嘗試使用該文件時措手不及。

Why Scanned Documents Are Harder to Work With Than You Think

核心誤解:它看起來像文本,但它不是

當您在螢幕上閱讀掃描文件時,您的大腦會看到文字——單字、句子、段落。但是 PDF 檢視器向您顯示的是文字圖像,而不是文字本身。每個字母都是恰好看起來像字母的像素的集合。沒有底層字元數據,沒有可搜尋的內容,沒有電腦可以解釋的結構。

確認這一點的快速方法:嘗試點擊並拖曳以選擇文件中的單字。在基於文字的 PDF 上,遊標會發生變化,您可以反白顯示單字。在掃描的 PDF 上,沒有任何反應 - 或整個頁面選擇為單一影像區塊。這種差異是隨後出現的大多數問題的根本原因。

WukongPDF

試試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →

你無法在其中搜尋

在掃描的 PDF 中按 Ctrl+F,搜尋什麼也找不到 - 或它搜尋檔案名,而不是內容。對於兩頁的表格來說,這是一個小小的不便。對於 200 頁的合約、500 頁的手冊或十年發票的存檔,無法搜尋是一個嚴重的限制。您必須手動通讀整個文件才能找到您要尋找的內容。

這是可以修復的。透過 OCR PDF 工具執行掃描的 PDF 會將影像內容轉換為真實文字並將其嵌入到檔案中。 OCR 後,該文件是完全可搜尋的 - Ctrl+F 查找單字,並且該檔案在作業系統中按其內容搜尋顯示,而不僅僅是其檔案名稱。 www.wukongpdf.com 上的 WukongPDF 的 OCR 工具可以一步處理這一問題。

複製文字沒有任何用處

需要將掃描合約中的條款提取到電子郵件中嗎?或將掃描報告中的圖表提取到電子表格中?使用基於文字的 PDF,您可以選擇並複製。使用掃描的 PDF,您要么什麼也得不到,要么得到 PDF 查看器即時運行的任何基本 OCR — 這通常不夠準確,需要進行重大修正。

人們透過手動重新輸入內容來解決這個問題,這很慢並且會引入錯誤。或者他們截取文字並嘗試從中閱讀,這很尷尬。首先在文件上執行正確的 OCR 可以消除所有這些問題——一旦文字是真實的,複製它就可以完全按照預期工作。

掃描的 PDF 過大

從 Word 匯出的十頁文字文件可能有 200KB。以 300 DPI 掃描的相同十頁可能有 15MB。這不是拼字錯誤 - 掃描的 PDF 將每個頁面儲存為高解析度影像,而且影像資料本質上比編碼文字重得多。

這會產生實際問題:電子郵件附件限制、入口網站上傳緩慢、大規模儲存成本。解決方法是壓縮 - 一個好的 PDF 壓縮 工具可以顯著減少掃描的 PDF 的大小,通常為 60-80%,同時保持圖像的可讀性。對於掃描文件的大型檔案,儲存前的壓縮是值得有系統地進行的。

螢幕閱讀器無法存取它們

螢幕閱讀器是視力障礙人士用來朗讀文件的軟體,其運作方式是讀取文件的文字內容。掃描的 PDF 沒有可供螢幕閱讀器尋找的文字內容。整個文件對它來說是不可見的。這使得掃描的 PDF 在文件需要可供視力障礙人士使用的任何情況下都成為一個嚴重的可訪問性問題。

在專業和公共部門環境中,這不僅僅是一個禮貌問題 - 許多司法管轄區的可訪問性合規性要求適用於數位文檔,而純圖像 PDF 不符合這些要求。 OCR 也是這裡的技術修復:一旦文字是真實的,螢幕閱讀器就可以使用它。

修復比問題聽起來更簡單

所有這些問題——不可搜尋的內容、不可複製的文字、超大文件、可訪問性失敗——都有相同的根本原因和大致相同的解決方案。透過 OCR 執行掃描的 PDF 以使文字真實,然後對其進行壓縮以減少檔案大小。兩個步驟,文件的行為就像一個正確的 PDF 而不是偽裝的照片。對於需要多次使用的文檔,在將其儲存之前進行操作是值得的,而不是在您已經在解決方法上浪費時間之後進行。

WukongPDF

試試 PDF OCR

無需安裝。直接在您的瀏覽器中工作。

立即開始 →