在 Word 中輸入並匯出為 PDF 的十頁信件可能有 200KB。掃描並儲存為 PDF 的相同十頁可能有 30MB — 150 倍大。內容是相同的。文件大小差异巨大。當人們掃描文件然後想知道為什麼不能透過電子郵件發送結果時,這種情況經常會出現。一旦您了解了每種類型的 PDF 如何儲存其內容,解釋就很簡單了。

文字資料與影像資料:基本的大小差異
数字 PDF 将文本存储为字符数据。字母“A”是指字母“A”。 PDF 中的字元「A」被儲存為對字元「A」的引用。以特定的字體——幾個字節的信息告訴觀眾要畫什麼以及在哪裡畫。整頁文字可能會佔用 5-10KB,因為每個字元只是一個小參考,而不是圖片。
Scanned PDF 将每个页面存储为照片。同一页文本以 300 DPI 的彩色拍摄,是一个大约 2,500 × 3,500 像素的网格——近 900 万个单独的彩色点,每个点都需要数据来描述其确切的颜色。即使经过压缩,单页扫描文本通常也只有 1-5MB。十頁意味著 10-50MB。
嘗試壓縮 PDF
無需安裝。直接在您的瀏覽器中工作。
尺寸差異背後的數學
以 300 DPI 掃描的 A4 頁面會產生 2,480 × 3,508 像素的影像。這大約是 870 萬像素。在全彩 (RGB) 中,每個像素需要 3 個位元組的資料 — 紅色、綠色和藍色值各一個。未壓縮時,每頁約 26MB。
JPEG 壓縮可顯著減少這種情況 — 典型的掃描頁面可壓縮至 1-3MB。但即使經過壓縮,它也比儲存與實際文字字元相同的內容所需的幾 KB 大幾個數量級。內容相同;儲存方法完全不同。
彩色與灰階與黑白
並非所有掃描的 PDF 尺寸都相同。掃描時選擇的顏色模式有重大影響:
- 顏色 (RGB):每像素 3 位元組。最大的文件。对于带有彩色内容的文档是必需的;白纸上的黑色文本浪费。
- 灰階:每像素1位元組。文件大小大約是彩色掃描件的 1/3。非常适合打印文档、表格和任何没有有意义颜色的内容。
- 黑白(1 位元):每個像素要不是黑色,就是白色 — 1 位元資料。文件非常小。最適合不需要灰色陰影的列印文字文檔,但對於任何帶有漸變或照片的內容來說很苛刻。
對於大多數文件掃描(信件、合約、表格、發票),150-200 DPI 的灰階可產生可讀、緊湊且適合電子郵件和數位提交的文件。
如何處理大型掃描PDFs
如果掃描已經完成且檔案太大,壓縮是最快的修復方法。 PDF 壓縮 顯著減少掃描的 PDF(通常減少 60-80%),因為每個頁面中的影像資料都具有壓縮可以消除的大量冗餘。 www.wukongpdf.com 的 WukongPDF 處理此操作:上傳掃描的 PDF,套用中度或高度壓縮,下載足夠小的文件以透過電子郵件傳送。
如果可以重新掃描,請先調整設定:從彩色切換到灰度,將 DPI 從 300 降低到 150 或 200,並啟用掃描器軟體中的任何內建 PDF 壓縮。這些從源頭進行的更改會產生更小的文件,而無需進行激進的掃描後壓縮的品質權衡。
OCR 方法:更小、更有用
透過 OCR 執行掃描的 PDF 不僅可以使其可搜索,還可以減少檔案大小。一些 OCR 工具在提取文字後用低解析度版本取代高解析度頁面圖像,因為文字層處理可讀性,而圖像只需要提供視覺上下文。結果是一個更小的文件,也可以搜尋和複製 - 比僅壓縮僅圖像掃描更好的結果。
嘗試壓縮 PDF
無需安裝。直接在您的瀏覽器中工作。
