Ctrl+F を押しても何も見つからず、テキストの選択やコピーができず、テキストをクリックすると個々の単語が強調表示されるのではなく長方形のボックスが描画される PDF — これはテキスト レイヤーのないドキュメントです。これはテキストではなく画像として保存されます。つまり、読者は文字を見ることができますが、ソフトウェアは文字として解釈できません。

一部の PDF にテキスト レイヤーがない理由
最も一般的な理由はスキャンです。物理的なドキュメントをスキャンして PDF として保存すると、PDF コンテナーに包まれたページの写真が作成されます。スキャナーは文書の外観を画像としてキャプチャしますが、文字が何であるかは知りません。画像を解釈してテキスト データを追加するための個別の OCR ステップがなければ、PDF は完全に画像ベースです。
その他の原因: テキストをテキストとして保持するのではなく、すべてのコンテンツをグラフィックスとして扱う特定のデザイン ソフトウェアからエクスポートされた PDF、テキストがアウトラインに変換された PDF (見た目は修正するがテキスト レイヤーを破壊するデザイン手法)、OCR を適用するスキャン アプリを使用せずに携帯電話でドキュメントを撮影して作成された PDF。
PDF OCR を試してみる
インストールは必要ありません。ブラウザで直接動作します。
問題の確認
最も簡単なテスト: 単語をクリックしてドラッグして選択してみます。個々の単語や文字が強調表示されている場合、PDF にはテキスト レイヤーがあり、検索可能です。この場合、他の原因により検索が失敗します (壊れたテキスト レイヤーに関する以下のセクションを参照)。ドラッグする場所に関係なく、ページ領域全体が長方形として選択された場合、ページはテキストのない画像として保存されます。
二次チェック: Ctrl+A を押してすべてを選択します。テキストレイヤーのある文書では、すべてのテキストが選択され、コピーできます。画像のみの PDF では、Ctrl+A を押すとページがオブジェクト全体として選択されます。コピー時にテキストはクリップボードに配置されません。
OCR を使用したテキスト レイヤーの追加
OCR (光学式文字認識) は各ページの画像を読み取り、認識された文字を含む隠しテキスト レイヤーを追加します。ドキュメントの見た目は変わりませんが、元のスキャンと同じように見えますが、テキストは選択、コピー、検索可能になります。
WukongPDF の OCR PDF ツールはブラウザでこれを処理します。スキャンされた PDF をアップロードし、OCR を実行し、検索可能なバージョンをダウンロードします。標準的な印刷テキストをきれいに高コントラストでスキャンした場合、その精度は十分に高いため、結果として得られるテキスト レイヤーは検索に信頼できます。処理されたファイルを開き、Ctrl+F を押して確認します。文書内に明確に出現する単語を検索すると、すぐに見つかるはずです。
テキスト レイヤーは存在するが検索が機能しない場合
PDF には選択できるテキストがあるのに、Ctrl+F を押してもそのテキストが見つからない場合があります。これは通常、3 つのうちの 1 つに当てはまります。まず、フォント エンコーディングが壊れている可能性があります。PDF にはテキスト データがありますが、文字マッピング テーブルが破損しているため、ビューアは何かを強調表示できますが、どの文字がどれであるかがわかりません。次に、OCR のテキスト レイヤーでは、検索している特定の単語にエラーがある可能性があります。第三に、一部の PDF は、標準の検索動作と一致しない Unicode 文字または特殊なエンコーディングを使用しています。
エンコードの問題については、PDF コンバーターを介して PDF を実行してテキストを抽出して再埋め込むと、文字マッピングの問題が解決される場合があります。 Word に変換すると、テキストにクリーンな再エンコード手順が適用され、その後 PDF にエクスポートし直して、フォント エンコードの破損によって引き起こされる検索の問題も解決できます。
今後のスキャンでの問題を回避する
検索可能にする必要があるドキュメントを定期的にスキャンしている場合は、OCR を後から追加するのではなく、スキャン ワークフローに組み込んでください。最新のスキャナ ソフトウェアのほとんどには、OCR を自動的に適用し、検索可能な PDF を直接保存するオプションがあります。 Microsoft Lens、Adobe Scan、Google Drive のカメラ機能などの携帯電話スキャン アプリはすべてデフォルトで OCR を適用し、別の処理手順を必要とせずに最初から検索可能な PDF を生成します。
PDF OCR を試してみる
インストールは必要ありません。ブラウザで直接動作します。
