スキャンした PDF が検索できない 4 つの理由 (およびその修正方法)

文書をスキャンし、PDF ビューアーで開き、単語を検索しようとしても、何も見つかりません。または、テキスト行を選択しようとすると、カーソルがその行をスキップしてしまいます。ファイルは PDF のように見えますが、写真のように動作します。これは、スキャンされたドキュメントに関して最も一般的な不満の 1 つであり、これが発生する特定の理由があります。ここではそのうちの 4 つと、それぞれを修正するためにできることを説明します。

4 Reasons Your Scanned PDF Is Not Searchable (And How to Fix It)

1。スキャナーはテキスト PDF ではなく画像として保存しました

これが最も一般的な原因です。スキャナーが物理的な文書を取り込むと、ページの写真が撮影されます。スキャンソフトウェアが保存時に OCR (光学文字認識) を適用しない場合は、その写真を PDF コンテナーにラップするだけです。結果は通常の PDF とまったく同じように見えますが、実際のテキストは含まれておらず、文字のように見えるようにピクセルが配置されているだけです。

PDF ビューアで Ctrl+A (Mac の場合は Cmd+A) を押すと、これを確認できます。何も選択されていないか、ページ全体が 1 つの画像ブロックとして選択されている場合は、画像のみの PDF を扱っていることになります。

修正方法: OCR PDF ツールを使用して PDF を実行します。 OCR は画像を読み取り、文字を認識し、実際の検索可能なテキストをファイルに埋め込みます。 www.wukongpdf.com にある WukongPDF の OCR ツールはこれを行います。スキャンされた PDF をアップロードし、OCR プロセスを実行して、テキストが完全に検索および選択可能なバージョンをダウンロードします。

Ocr をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →

2.スキャン品質が低すぎるため、OCR が適切に動作しません

OCR は魔法ではありません。ピクセルパターンを分析し、既知の文字の形状と一致させることで機能します。スキャンがぼやけていたり、歪んでいたり、暗すぎたり、非常に低い解像度でキャプチャされた場合、OCR エンジンは文字を正確に区別するのに苦労します。その結果、テキストが文字化けしたり、文字が欠落したり、認識されたテキストがページ上の内容と一致しないためにファイルが適切に検索できなくなったりします。

信頼性の高い OCR の最小解像度は通常 300 DPI です。それ以下では精度が著しく低下します。 OCR エンジンは水平のテキスト行を想定しているため、ページが斜めになっている場合 (ドキュメントがスキャナ内でわずかに傾いて配置されている場合) も問題を引き起こします。

解決策: 再スキャンできる場合は、ドキュメントを平らでまっすぐに置き、300 DPI 以上で再スキャンしてください。再スキャンがオプションでない場合、一部の OCR ツールには、認識前にスキャンのスキューを補正して強化できる画像前処理が含まれています。低品質のスキャンを諦める前に、そのオプションを探してください。

3.ドキュメントは OCR エンジンがサポートしていない言語で書かれています

OCR エンジンは、特定の言語と文字セットに基づいてトレーニングされています。ラテン文字言語 (英語、フランス語、スペイン語、ドイツ語) 用に最適化されたエンジンは、アラビア語、中国語、日本語、韓国語、または特殊な文字を含む言語では困難になります。ラテン文字の中でも、特殊文字、発音記号、または珍しいフォントが多用されている文書では、認識の問題が発生する可能性があります。

解決策: ドキュメントの言語を明示的にサポートする OCR ツールを使用します。最新の OCR PDF ツールには、サポートされている言語がリストされています。処理する前に確認してください。適切な言語設定を使用した後でも精度が低い場合は、スキャン品質が制限要因である可能性があります。

4. PDF にはテキスト抽出をブロックするセキュリティ設定があります

一部の PDF は、テキストがコピーまたは抽出されないように意図的に構成されています。これは PDF のアクセス許可設定によって行われます。ドキュメントは正常に開き、完全に正常に見えるかもしれませんが、テキスト選択ツールは無効になっており、技術的にはテキストが存在するにもかかわらず、検索では結果が返されません。

これは、スキャンされた文書ではあまり一般的ではありませんが、作成者によって意図的にロックダウンされた PDF、つまり特定の法的文書、保護されたフォーム、または厳格な文書管理ポリシーを持つ組織からのファイルでより一般的です。

PDF ビューアのドキュメントプロパティ (通常は [ファイル] > [プロパティ] > [セキュリティ] の下) に移動し、どの権限が有効になっているかを確認することで、これが問題かどうかを確認できます。コンテンツのコピーが許可されていないものとしてリストされている場合、それが答えです。

ほとんどのスキャンされた PDF はワンステップで修正できます

ほとんどの場合、検索不可能なスキャン PDF には OCR を適用するだけで十分です。スキャン品質の問題は 2 番目に一般的な原因ですが、これも多くの場合修正可能です。 www.wukongpdf.com にある WukongPDF の OCR PDF ツールを使用してファイルを実行します。これは、検索不可能な画像 PDF から、探しているものが実際に見つかるドキュメントに移行する最速の方法です。

Ocr をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →