Others

PDF 内のテキストを検索できないのはなぜですか?

PDF で Ctrl+F を押しても何も見つからない場合、または検索バーを見つけても、ページ上ではっきりと確認できる単語であっても結果がゼロになる場合は、テキスト レイヤーの問題です。 PDF には検索可能なテキストが含まれていません。つまり、見ているのは実際の文字ではなく画像です。この修正は OCR であり、ほとんどの人が予想するよりも高速です。

Why Can't I Search for Text Inside My PDF?

一部の PDF に検索可能なテキストがない理由

PDF には、基本的に異なる 2 つのタイプのコンテンツを含めることができます。 1 つ目は実際のテキストです。つまり、検索、選択、コピーできるテキスト データとして保存された文字です。 2 つ目は画像データです。文字が単なるピクセルであるページの写真であり、画面上の実際のテキストと視覚的には区別できませんが、構造的にはまったく異なります。

スキャンされた文書は常に画像ベースであり、スキャナーがページの写真を撮影します。ただし、デジタルで作成されたドキュメントであっても、コンテンツをフラット化して変換した場合、テキストを保存せずに特定のデザイン ソフトウェアからエクスポートした場合、または印刷から画像へのワークフローを介して保存した場合には、画像のみになる可能性があります。 The visual result looks identical; only the underlying data structure is different.

WukongPDF

PDF OCR を試してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

PDF にテキスト レイヤーがあるかどうかを確認する方法

PDF を開き、クリックしてドラッグして 1 つの単語を選択してみてください。個々の単語を強調表示でき、選択したテキストが青色 (またはビューアーの選択色) で強調表示される場合、PDF には実際のテキスト レイヤーがあり、検索可能であるはずです。クリックしてドラッグすると、特定の単語が強調表示されるのではなく、ページ画像上に長方形の選択ボックスが表示される場合、その文書は画像ベースです。

2 番目のテスト: Ctrl+A を押してすべてを選択してみます。テキストベースの PDF では、ドキュメント全体でテキストが強調表示されます。画像ベースの PDF では、目に見えて何も選択されないか、ページ全体が 1 つの画像ブロックとして選択されます。

修正: OCR の実行

OCR (光学式文字認識) は画像を読み取り、表示された内容をテキスト文字に変換し、テキスト レイヤーを PDF に追加します。 OCR 後、ドキュメントは検索可能になります。Ctrl+F で単語が検索され、テキストを選択してコピーでき、スクリーン リーダーが内容を解釈できます。

WukongPDF の OCR PDF ツールはブラウザーでこれを処理します。画像ベースの PDF をアップロードし、OCR を実行して、検索可能なバージョンをダウンロードします。ドキュメントの外観は変わりません (ページは同じに見えます) が、基礎となるデータには、検索ツールと選択ツールで使用できるテキスト レイヤーが含まれるようになりました。

OCR の精度は、元のスキャンの品質によって決まります。 200 DPI 以上の OCR、98 ~ 99% の精度で、白い紙にきれいなハイコントラストの黒いテキストが表示されます。色あせたインク、低解像度のスキャン、珍しいフォント、または手書きの場合は、より多くのエラーが発生します。ほとんどのタイプされたビジネス文書では、OCR 結果はすぐに使用できるほどきれいです。

既存のテキストにもかかわらず検索で何も見つからない場合

あまり一般的ではない状況: PDF には実際のテキスト レイヤーがあり、テキストの選択は機能しますが、検索機能は依然として結果を返しません。これは通常、PDF ビューアの検索インデックスがまだ構築されていないことを意味します。一部のビューアは、開いた後にバックグラウンドでインデックスを作成します。数秒待ってからもう一度試してください。問題が解決しない場合は、より簡単な用語を使用して別の検索クエリを試すか、別のビューアでファイルを開いてください。

別の原因: テキスト レイヤーは存在しますが、フォント エンコーディングの問題により文字化けした文字が含まれています。文をコピーして別の場所に貼り付けようとしたときに、文がランダムな記号として表示される場合は、テキストのエンコードが壊れています。 OCR はこれも解決します。ビジュアル コンテンツを読み取ることでテキスト レイヤーを最初から再構築し、壊れたエンコーディングを正しいテキストに置き換えます。

今後の PDF を常に検索可能にする

スキャンされたドキュメントの場合、スキャン直後に OCR を実行すると、スキャンされたすべての PDF がファイルされた瞬間から検索可能になります。一部のスキャナ ソフトウェアには OCR が組み込まれており、それが自動的に適用されます。利用可能な場合はこの設定を有効にします。 OCR が組み込まれていないスキャナの場合、ファイリング前にスキャン後の OCR パスをすばやく実行すると、ドキュメントあたり数秒が追加され、数週間または数か月後に何かを見つける必要があるときに大幅に時間を節約できます。

デジタルで作成されたドキュメントの場合は、画像への印刷ではなく、適切なエクスポートを使用していることを確認してください。 Word、Google ドキュメント、またはその他の専門的なアプリケーションから直接エクスポートすると、テキスト レイヤーが自動的に保存されます。検索性の問題は、エクスポート プロセスでコンテンツをラスタライズする場合にのみ発生します。これは通常、特定のドライバーを使用したPDF への出力、またはドキュメントを明示的にフラット化するエクスポート オプションを使用した場合に発生します。

WukongPDF

PDF OCR を試してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →