PDF はスキャンしたドキュメントと同じですか?

「PDF」がよく使われます。「スキャンされた文書」同じ意味で、特にオフィス環境では「スキャンして PDF を送信するだけ」と言われます。しかし、PDF とスキャンされたドキュメントは同じものではなく、この 2 つを混同すると大きな混乱が生じます。スキャンは PDF として保存できますが、すべての PDF がスキャンであるわけではなく、その違いは実用上重大な影響を及ぼします。

Is a PDF the Same as a Scanned Document?

PDF とは実際には

PDF は、Portable Document Format の略です。これはファイル形式であり、実際のテキスト、ベクターグラフィックス、画像、ハイパーリンク、フォームフィールド、ブックマークなど、さまざまな種類のコンテンツを保持できるコンテナーです。 PDF Format は、どのデバイスやオペレーティングシステムでもドキュメントを一貫して表現できるように設計されています。

Word 文書から作成された PDF には、実際のテキスト、つまりコンピューターが読み取り、検索、コピー、処理できる文字が含まれています。 Excel スプレッドシートから作成された PDF には実際のデータが含まれています。ブラウザによって生成された PDF には、実際の Web ページのコンテンツが含まれています。いずれの場合も、PDF は写真ではなく、本物のコンテンツを含む構造化ドキュメントです。

PDF OCR をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →

スキャンされたドキュメントとは

スキャンされたドキュメントは物理ページの写真です。スキャナは紙からの反射光を捕捉し、それをピクセルのグリッド、つまりラスター画像に変換します。結果として得られるファイルは、ドキュメント自体ではなく、ドキュメントの画像です。スキャンで表示されるテキストは、文字のように見えるように配置された色付きのピクセルとしてのみ存在します。

そのスキャンを PDF として保存すると、PDF ファイルが得られますが、その内容はテキストではなく画像です。 PDF コンテナは本物ですが、中身は写真です。これは、画像のみの PDF または Scanned PDF と呼ばれ、実際のテキストコンテンツを含む PDF とは動作が大きく異なります。

混乱が生じる理由

この混乱は、スキャンされた文書が通常 PDF として保存されるという事実から生じています。スキャナーとスキャナーアプリは通常、デフォルトで .pdf ファイルを出力します。したがって、誰かが「PDF」を受信すると、実際のテキストを含むデジタル PDF か、画像コンテンツを含むスキャンされた PDF を受け取った可能性がありますが、画面上では 2 つは同一に見えます。

この違いは、ファイルに対して何かを実行しようとしたときにのみ明らかになります。単語を検索してみてください。文をコピーしてみてください。スクリーンリーダーを使用してみてください。デジタル PDF はこれらすべてを処理します。スキャンされた PDF では、テキストレイヤーを追加するために OCR が適用されていない限り、それらはいずれも処理されません。

重要な実際的な違い

検索性: デジタルPDFは完全に検索可能です。 OCR が適用されていない限り、スキャンされた PDF は結果を返しません。
ファイルサイズ: デジタル PDF はコンパクトです。通常、10 ページのテキストドキュメントは 500 KB 未満です。スキャンされた PDF にはページ画像が保存され、通常は 10 ～ 100 倍の大きさになります。
コピーして貼り付けます: デジタル PDF からテキストを選択してコピーできます。スキャンした PDF からはできません。テキストを選択しようとすると、ページ画像全体が選択されます。
編集: デジタル PDF では、PDF エディターを使用してテキストを直接編集できます。スキャンされた PDF では、新しいコンテンツを最前面に配置することのみが可能であり、既存の画像コンテンツは変更できません。
アクセシビリティ: スクリーンリーダーはデジタル PDF で動作します。スキャンされた PDF は、OCR テキストレイヤーがなければ支援技術にまったくアクセスできません。

自分のタイプを判断する方法

PDF を開いて単語をクリックしてみてください。デジタル PDF では、カーソルがテキストカーソルになり、個々の単語を選択できます。スキャンされた PDF では何も起こらないか、ページ全体が 1 つのブロックとして選択されます。

Ctrl+F を押して、ページ上に表示される単語を検索します。見つかった場合、PDF には実際のテキストが含まれています。検索で何も返されない場合は、画像のみです。 3 番目の指標はズーム品質です。デジタル PDF にズームインすると、どの倍率でもテキストが鮮明に保たれますが、スキャンされた PDF にズームインすると、画像を拡大するとピクセル化が明らかになります。

スキャンした PDF をデジタルのもののように動作させる

OCR — 光学式文字認識 — スキャンされた PDF 内の画像を読み取り、テキスト文字を認識し、実際のテキストレイヤーをファイルに追加します。 OCR 後、ドキュメントは検索、コピー、アクセスが可能になります。 www.wukongpdf.com にある WukongPDF の OCR ツールは、デスクトップソフトウェアを使用せずにこれを実行します。スキャンした PDF をアップロードし、OCR を実行し、実際のテキストが含まれるバージョンをダウンロードします。スキャンされた PDF をネイティブのデジタルドキュメントに変えることはできませんが、実質的なギャップはほとんど解消されます。

PDF OCR をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →