スクリーンショットベースの PDF の問題

スクリーンショットを撮って PDF として保存するのは、何かをキャプチャする簡単な方法のように思えます。単一の画像の場合は正常に動作します。ドキュメント (スプレッドシートのスクリーンショット、Web ページのスクリーンショット、他の PDF のスクリーンショット) を作成するためのワークフローとして、実際に役立つことを実行してみるまでは明らかではない、重大な実用上の制限のあるファイルが生成されます。何が問題なのか、そして代わりに何をすべきかは次のとおりです。

スクリーンショットベースのPDFには実際にはが含まれています

スクリーンショットから作成された PDF は、1 つ以上の画像を保持するコンテナです。テキストレイヤー、ドキュメント構造、コンテンツの意味に関するメタデータはありません。スクリーンショットに表示される単語は、ピクセル (文字のように見えるように配置された色の付いた点) としてのみ存在します。この文書には、ページの写真以上の意味的な内容はありません。

この区別 (実際のテキストとテキストのように見えるピクセル) が、その後に起こるあらゆる問題の根本原因となります。スクリーンショット PDF の PDF 品質の問題は、PDF 形式の障害ではありません。これは、ドキュメント形式が必要な場合に画像形式を使用する場合の基本的な制限です。

PDF OCR をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →

検索できません

スクリーンショット PDF で Ctrl+F を押すと、検索では何も見つかりません。ページに表示されるテキストは、検索可能なコンテンツとしては存在しません。研究論文、データテーブル、または後で参照する必要があるドキュメントの PDF を作成している場合、その中で検索できないことは、実用上重大な制限となります。

また、このファイルは、オペレーティングシステムの内容による検索では表示されず、ファイル名による検索のみが表示されます。スクリーンショット PDF のフォルダーは、命名規則に従ってのみナビゲート可能であり、文書内にあった覚えのある単語を検索するフォールバックはありません。

品質が低下し、回復できなくなります

スクリーンショットは、画面解像度 (標準的なモニターでは通常 72 ～ 96 DPI) でコンテンツをキャプチャします。読み取りまたは印刷を目的とした PDF ドキュメントは、少なくとも 150 DPI である必要があります。高品質で印刷されるものには 300 DPI が必要です。スクリーンショット PDF は信頼できる印刷品質の最小しきい値を下回っており、その後 PDF が圧縮されると問題はさらに悪化します。

画面上では 100% ズームで問題なく見えるテキストでも、印刷または拡大すると、ピクセル化して目立つことがよくあります。表内の数字 (特に正確に読み取ることが重要) は、解像度が低いと曖昧になる可能性があります。「6」そして「8」。元の解像度では区別できるものでも、圧縮されたスクリーンショット PDF では同一に見える場合があります。

そこからテキストをコピーすることはできません

OCR がなければ、スクリーンショット PDF から図、引用、条項、またはその他のコンテンツを選択してコピーすることは不可能です。テキストカーソルは表示されないか、画像全体がブロックとして選択されます。文書を受け取り、そこから内容を抽出する必要がある人（引用をレポートに貼り付けたり、図をスプレッドシートにコピーしたり）は、手動で再入力する必要があります。

他の人が操作できるように作成するドキュメント (データテーブル、参考ドキュメント、調査概要) の場合、この制限によりドキュメントの有用性が大幅に低下します。実際のテキストを含む PDF は共同作業に適しています。スクリーンショット PDF は、文字通りの意味で読み取り専用です。

アクセシビリティ要件を満たしていません

スクリーンリーダー (視覚障害のある人が使用するソフトウェア) は、ドキュメントのテキストコンテンツを読み取ることで機能します。スクリーンショット PDF にはテキストコンテンツがありません。スクリーンリーダーは、ドキュメントが開いているが、読み取るものがないことを通知します。文書がアクセシビリティ基準を満たす必要がある専門分野または公共部門の状況では、スクリーンショット PDF は該当するすべての要件を満たしません。これは小さな問題ではありません。多くの法域では、アクセス可能な代替文書が実行可能な場合にアクセスできない文書を配布することはコンプライアンス上の問題です。

スクリーンショットを撮る代わりにすべきこと

適切なアプローチは、何をキャプチャしようとしているかによって異なります。

Web ページのキャプチャ: ブラウザの組み込みの印刷 > を使用します。 PDF 関数として保存するか、最初にリーダーモードを使用して出力をきれいにします。結果にはピクセルではなく実際のテキストが含まれます。
スプレッドシートのキャプチャ: [ファイル] > [ファイル] を使用して Excel または Google スプレッドシートから直接エクスポートします。ダウンロード > PDF。結果は、正しい解像度で実際のテキストを含む、適切にフォーマットされた PDF になります。
別の PDF をキャプチャする: スクリーンショットを撮るのではなく、分割ツールを使用して必要なページを抽出します。抽出されたページには、元の解像度とテキストレイヤーが保持されます。
アーカイブ内にすでにスクリーンショット PDF がある場合: www.wukongpdf.com にある WukongPDF の OCR PDF ツールでそれらを実行し、検索可能なテキストレイヤーを追加します。印刷品質の解像度は回復しませんが、コンテンツの検索とコピーが可能になります。

スクリーンショットにはドキュメントとしての役割がありません

スクリーンショットは、視覚的な状態 (ある時点での画面の見え方、UI のバグ、デザインの参照) をキャプチャするのに役立ちます。これらは、文書レコード、参考資料、または検索、コピー、高品質で印刷、または支援技術を使用して人々がアクセスする必要があるものを作成するための間違ったツールです。これらのカテゴリに属するものについては、スクリーンショットのショートカットではなく、ソースアプリケーションのエクスポート機能を使用してください。

PDF OCR をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →