Others

スキャンされた PDF とデジタル PDF: 主な違い

2 つの PDF は画面上では同じように見えますが、動作はまったく異なります。 1 つが開き、テキストをクリックして単語を検索し、段落をコピーできます。もう 1 つは見た目は同じですが、クリックしても何も起こりません。カーソルはテキスト上に移動せず、Ctrl+F を押しても何も見つかりません。違いは、PDF がデジタルで作成されたか、物理的な文書をスキャンして作成されたかです。この違いを理解すると、PDF で遭遇するイライラする動作の多くが説明されます。

Scanned PDF vs Digital PDF: Key Differences

各タイプの作成方法

デジタル PDF は、Word からエクスポートしたり、会計ソフトウェアで生成したり、Web ブラウザーの印刷機能で作成したり、__​​PDF__ を出力できるアプリケーションで作成したりして、ソフトウェアから直接作成されます。ファイル内のテキストは実際の文字データです。コンピューターはあらゆる単語、あらゆる文字、あらゆるスペースを認識します。

スキャンされた PDF は、物理的な文書を写真撮影またはスキャンすることによって作成されます。スキャナはページの画像、つまりテキストのように見えるがテキスト データを含まないピクセルのグリッドをキャプチャします。このファイルは、PDF コンテナーに包まれた写真です。コンピューターは言葉ではなく画像を見ます。

WukongPDF

PDF OCR をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →

自分のタイプを判断する方法

最も簡単なテスト: クリックしてドラッグして単語を選択してみます。デジタル PDF では、カーソルがテキスト カーソルに変わり、個々の単語が強調表示されます。スキャンされた PDF では何も強調表示されないか、ページ全体が 1 つの画像ブロックとして選択されます。

2 番目のテスト: Ctrl+F を押して、ページ上に表示される単語を検索します。デジタル PDF では、すぐに見つかります。スキャンされた PDF では、検索では何も返されません。 3 番目の指標はファイル サイズです。スキャンされた PDF は、効率的なテキスト エンコーディングではなく画像データを保存するため、通常、同じ内容のデジタル PDF よりもはるかに大きくなります。

実践における主な違い

  • 検索性: デジタルPDFはコンテンツごとに完全に検索可能です。スキャンされた PDF は検索では表示されません。OCR が適用されていない限り、ファイル名でのみ検索できます。
  • コピー アンド ペースト: デジタル PDF では、テキストの選択とコピーが可能です。スキャンされた PDF はそうではありません。抽出したいコンテンツを再入力する必要があります。
  • ファイル サイズ: 10 ページのデジタル テキスト ドキュメントは通常 100 ~ 300 KB です。 300 DPI でのカラー スキャンと同じページは 20 ~ 40 MB で、およそ 100 倍の大きさになります。
  • アクセシビリティ: スクリーン リーダーはデジタル PDF で動作します。スキャンされた PDF は、OCR なしではまったくアクセスできません。スクリーン リーダーが読み取るテキストがありません。
  • 印刷品質: digital PDFは、テキスト要素とベクター要素が無限に拡大縮小できるため、品質を損なうことなく任意のサイズで印刷できます。スキャンされた PDF は固定解像度で印刷されます。十分に拡大するとピクセルが見えるようになります。
  • 編集: デジタル PDF は、PDF エディタ を使用して編集できます。テキストをクリックして直接変更します。スキャンされた PDF は、既存のコンテンツを変更するのではなく、画像の上に新しいコンテンツを配置することによってのみ編集できます。

ギャップを埋める: OCR の機能

OCR (光学式文字認識) は、スキャンされた PDF とデジタル PDF の間のギャップをほとんど埋めます。 OCR ツールで Scanned PDF を実行すると、実際のテキスト レイヤーがファイルに追加されます。画像は表示されたままですが、その下にソフトウェアが実際の文字を認識して埋め込みます。 OCR 後、ドキュメントは検索、コピー可能になり、スクリーン リーダーでアクセスできるようになります。

OCR は完璧ではありません。精度はスキャンの品質、フォントの明瞭さ、言語によって異なります。しかし、標準フォントで入力された文書をクリーンにスキャンする場合、最新の OCR は非常に正確で、イライラする画像のみの PDF を、適切なデジタル ドキュメントのように動作するものに変換します。 www.wukongpdf.com にある WukongPDF の OCR ツールは、デスクトップ ソフトウェアを必要とせずにこれを処理します。

さまざまな目的にどのタイプを使用するか

  • 自分で作成したドキュメントの場合: 常にソース アプリケーションからエクスポートしてデジタル PDF を作成します。デジタルで作成したもののプリントアウトを決してスキャンしないでください。不必要な品質の低下を招くことになります。
  • デジタル化する必要がある物理的な文書の場合: スキャンが唯一のオプションですが、結果をデジタル PDF と同じくらい便利にするには、直後に OCR を実行します。
  • 重要なドキュメントをアーカイブする場合: オリジナルのデジタル ソースがある場合は、デジタル PDF をアーカイブします。物理的な文書しかない場合は、それをスキャンし、OCR を適用して圧縮し、OCR 処理されたバージョンを保存します。
WukongPDF

PDF OCR をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →