スキャンされた PDF がデジタルのものよりもはるかに大きい理由

Word で入力して PDF にエクスポートした 10 ページの手紙は、200 KB になる可能性があります。同じ 10 ページをスキャンして PDF として保存すると、30 MB になる可能性があり、これは 150 倍になります。内容は同一です。ファイルサイズの違いは膨大です。この問題は、文書をスキャンした後、なぜ結果を電子メールで送信できないのか疑問に思うときに常に発生します。 PDF の各タイプがコンテンツをどのように保存するかを理解すれば、説明は簡単です。

Why Scanned PDFs Are So Much Larger Than Digital Ones

テキストデータと画像データ: 基本的なサイズの違い

デジタル PDF はテキストを文字データとして保存します。文字「A」は、 PDF 内のは、文字「A」への参照として保存されます。特定のフォントで — 何をどこに描画するかを視聴者に伝える数バイトの情報。各文字は単なる小さな参考資料であり、画像ではないため、テキストのページ全体が 5 ～ 10 KB を占める場合があります。

Scanned PDF は、各ページを写真として保存します。カラー 300 DPI で撮影された同じページのテキストは、約 2,500 × 3,500 ピクセルのグリッドです。これは約 900 万個の個別の色のドットであり、それぞれが正確な色を記述するデータを必要とします。圧縮後でも、スキャンされたテキストの 1 ページは通常 1 ～ 5MB です。 10 ページとは 10 ～ 50MB を意味します。

PDF の圧縮をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →

サイズの違いの背後にある数学

A4 ページを 300 DPI でスキャンすると、2,480 × 3,508 ピクセルの画像が生成されます。それは約870万画素です。フルカラー (RGB) では、各ピクセルに 3 バイトのデータ (赤、緑、青の値に 1 つずつ) が必要です。非圧縮の場合、1 ページあたり約 26 MB になります。

JPEG 圧縮により、これが大幅に削減されます。一般的なスキャンされたページは 1 ～ 3MB に圧縮されます。ただし、圧縮したとしても、実際のテキスト文字と同じコンテンツを保存するのに必要な数 KB よりも桁違いに大きくなります。内容は同じです。保存方法が全く違います。

カラー vs グレースケール vs 白黒

スキャンされたすべての PDF が同じサイズであるわけではありません。スキャン時に選択されるカラーモードは、次のような大きな影響を与えます。

カラー (RGB): 3 バイト/ピクセル。最大のファイル。カラーコンテンツを含むドキュメントに必要です。白い紙に黒い文字は無駄です。
グレースケール: 1 ピクセルあたり 1 バイト。ファイルのサイズはカラースキャンの約 1/3 です。タイプされた文書、フォームなど、意味のある色のないものに最適です。
白黒 (1 ビット): 各ピクセルは黒または白のいずれかであり、1 ビットのデータです。ファイルは非常に小さいです。グレーシェーディングが必要ない印刷されたテキストドキュメントには最適ですが、グラデーションや写真を含むものには厳しいです。

ほとんどの文書スキャン (手紙、契約書、フォーム、請求書) では、150 ～ 200 DPI のグレースケールにより、読みやすくコンパクトで、電子メールやデジタル送信に適したファイルが生成されます。

大量にスキャンされたPDFs

スキャンがすでに完了していて、ファイルが大きすぎる場合は、圧縮するのが最も早い解決策です。 PDF 圧縮を使用すると、スキャンされる PDF が大幅に (多くの場合 60 ～ 80%) 削減されます。これは、各ページの画像データには圧縮によって除去できるかなりの冗長性があるためです。 www.wukongpdf.com の WukongPDF はこれを処理します。スキャンされた PDF をアップロードし、中または高圧縮を適用し、電子メールで送信できるほど小さいファイルをダウンロードします。

再スキャンできる場合は、まず設定を調整します。カラーからグレースケールに切り替え、DPI を 300 から 150 または 200 に下げ、スキャナソフトウェアに組み込まれている PDF 圧縮を有効にします。ソースでのこれらの変更により、積極的なスキャン後の圧縮による品質のトレードオフが発生することなく、はるかに小さなファイルが生成されます。

OCR アプローチ: より小型でより便利

スキャンした PDF を OCR で実行すると、検索可能になるだけでなく、ファイルサイズも削減できます。一部の OCR ツールでは、テキストレイヤーが可読性を処理し、画像は視覚的なコンテキストを提供するだけでよいため、テキストの抽出後に高解像度のページ画像を低解像度のバージョンに置き換えます。その結果、ファイルが小さくなり、検索やコピーも可能になります。これは、画像のみのスキャンを単に圧縮するよりも優れた結果になります。

PDF の圧縮をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →

スキャンされた PDF がデジタルのものよりもはるかに大きい理由

テキスト データと画像データ: 基本的なサイズの違い

PDF の圧縮をお試しください

サイズの違いの背後にある数学

カラー vs グレースケール vs 白黒

大量にスキャンされたPDFs

OCR アプローチ: より小型でより便利

PDF の圧縮をお試しください

テキストデータと画像データ: 基本的なサイズの違い