人們常使用「PDF」來表示。和“掃描文件”可以互換 - 尤其是在辦公室環境中,有人說“只需掃描並發送 PDF”。但 PDF 和掃描文件並不是同一回事,將兩者混為一談會造成真正的混亂。掃描件可以另存為 PDF,但並非所有 PDF 都是掃描件,這種差異具有重大的實際後果。

PDF 其實是什麼
PDF 代表便攜式文件格式。它是一種文件格式——一個可以容納許多不同類型內容的容器:真實文字、向量圖形、圖像、超連結、表單欄位、書籤等等。 PDF 格式 旨在跨任何裝置或作業系統一致地表示文件。
從 Word 文件建立的 PDF 包含實際文字 - 電腦可以讀取、搜尋、複製和處理的字元。從 Excel 電子表格建立的 PDF 包含真實資料。瀏覽器產生的PDF包含真實的網頁內容。在每種情況下,PDF 都是具有真實內容的結構化文檔,而不是照片。
試試 PDF OCR
無需安裝。直接在您的瀏覽器中工作。
掃描文件實際上是什麼
扫描文档是物理页面的照片。掃描器捕捉從紙張反射的光,並將其轉換成像素網格—光柵影像。產生的文件是文檔的圖片,而不是文檔本身。掃描中可見的任何文字僅以彩色像素的形式存在,排列得像字母。
當該掃描儲存為 PDF 時,您會得到一個 PDF 檔案 - 但其內容是圖像,而不是文字。 PDF 容器是真实的,但里面是一张照片。这称为纯图像 PDF 或 Scanned PDF,其行为与具有实际文本内容的 PDF 非常不同。
為什麼有混亂
造成混亂的原因是掃描文件通常儲存為 PDF。掃描器和掃描器應用程式通常預設輸出 .pdf 檔案。因此,當有人收到「PDF」時,他們可能收到了包含真實文字的數字 PDF 或包含圖像內容的掃描版 PDF - 並且兩者在螢幕上看起來相同。
只有當您嘗試對文件執行某些操作時,這種區別才會變得明顯。嘗試搜尋一個字。嘗試複製一個句子。嘗試使用螢幕閱讀器。數字 PDF 可以處理所有這些。掃描的 PDF 無法處理其中任何一個 - 除非已套用 OCR 來新增文字圖層。
重要的實際差異
- 可搜尋性:數字PDF完全可搜尋。除非套用了 OCR,否則掃描的 PDF 不會傳回結果。
- 檔案大小: 數字 PDF 非常緊湊 — 10 頁文字文件通常小於 500KB。掃描的 PDF 儲存頁面影像,通常大 10-100 倍。
- 複製貼上:您可以從數字PDF中選擇和複製文字。您無法從掃描的 PDF 中嘗試選擇文本,從而選擇整個頁面圖像。
- 編輯:數字PDF可以直接使用PDF編輯器編輯文字。掃描的 PDF 只能將新內容放置在頂部 - 現有影像內容無法變更。
- 輔助功能:螢幕閱讀器可與數字PDF搭配使用。如果沒有 OCR 文字層,輔助技術將完全無法存取掃描的 PDF。
如何判斷您屬於哪種類型
開啟 PDF 並嘗試點擊一個單字。在數字 PDF 中,遊標變成文字遊標,您可以選擇單字。在掃描的 PDF 中,沒有任何反應或整個頁面被選為一個區塊。
按 Ctrl+F 并搜索您可以在页面上看到的单词。如果找到,则 PDF 具有真实文本。如果搜索没有返回任何内容,则它只是图像。第三個指標是縮放品質 - 放大數字 PDF 可以在任何放大倍率下保持文字清晰,而放大掃描 PDF 會在放大影像時顯示像素化。
使掃描的 PDF 表現得像數位版
OCR — 光學字元辨識 — 讀取掃描的 PDF 中的影像,辨識文字字符,並在檔案中加入真實的文字圖層。 OCR 後,文件變得可搜尋、可複製和可存取。 www.wukongpdf.com 上的 WukongPDF 的 OCR 工具無需桌面軟體即可完成此操作 - 上傳掃描的 PDF,運行 OCR,下載現在包含真實文本的版本。它不會將 Scanned PDF 轉換為本機數位文檔,但它彌補了大部分實際差距。
試試 PDF OCR
無需安裝。直接在您的瀏覽器中工作。
