Tips & Tricks

PDF を検索可能にする方法

検索可能な PDF とは、テキストが画像ではなく実際の文字としてファイルに保存されているものです。 Ctrl+F を押して単語を入力すると、視聴者はその単語を見つけることができます。テキストを選択してコピーすると、実際の文字がコピーされます。デジタル的に作成された PDF の場合、これは自動的に行われます。スキャンされた PDF の場合、テキスト レイヤーを追加するには OCR が必要です。

How to Make a PDF Searchable

PDF がすでに検索可能かどうかを確認する方法

PDF を開いて、クリックしてドラッグして単語を選択してみてください。個々の単語が強調表示されてコピーできる場合、PDF にはすでにテキスト レイヤーがあり、検索可能です。特定の単語を選択するのではなく、クリックしてエリア全体に長方形の選択範囲を描画する場合、ページはテキストレイヤーのない画像として保存されます。そんなときに必要になるのがOCRです。

WukongPDF

PDF OCR を試してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

OCR を実行してテキスト レイヤーを追加する

WukongPDF の OCR PDF ツールは、ブラウザーでスキャンされた PDF を処理し、テキストが認識され、元のスキャン画像と一緒に埋め込まれたバージョンを返します。ページは同じように見えます (見た目も同じ、スキャン品質も同じ) が、Ctrl+F で単語が検索され、テキストを選択してコピーできるようになりました。スキャンした PDF をアップロードし、OCR を実行して、検索可能なバージョンをダウンロードします。

Adobe Acrobat Pro には、[ツール] → [スキャンとスキャン] に強力な OCR エンジンもあります。 OCR → テキストを認識します。かすれたテキスト、珍しいフォント、非ラテン文字など、困難なスキャンの精度は一般にブラウザ ツールよりも優れていますが、標準的な印刷テキストの場合、その差はわずかです。精度が重要な大量の文書を処理している場合、Acrobat の OCR は投資する価値があります。

OCR の精度と言語サポート

OCR の精度はスキャンの品質に大きく依存します。専門的に印刷されたドキュメントを 200 DPI 以上でクリーンでハイコントラストにスキャンすると、通常 98 ~ 99% の文字精度で変換され、実用的な目的では基本的にエラーが発生しません。色あせたコピー、斜めから撮影したスキャン、または手書きの注釈が付いている文書には、手動で修正する必要があるエラーが多くなります。

ほとんどの OCR ツールはドキュメント言語を自動的に検出し、言語固有のモデルを使用して精度を向上させます。ドキュメントで特定の文字が一貫して誤認識されている場合は、言語が正しく検出されているかどうかを確認してください。OCR 設定で正しい言語を強制すると、特にアクセント付き文字や非ラテン文字を含むドキュメントの場合、顕著な違いが生じることがよくあります。

PDF を長期アーカイブ用に検索可能にする

紙のアーカイブをデジタル化する組織は、多くの場合、検索可能性、つまり数年後に数千のファイルの中から特定の文書や条項を見つけられるようにすることを主な目標としています。この使用例では、OCR 出力を長期保存用に設計された形式で保存する必要があります。 PDF/A-3 は、ページ画像とともに埋め込みテキスト レイヤーをサポートしており、検索可能なドキュメント アーカイブ用に特別に設計されたアーカイブ標準です。 OCR を実行し、アーカイブ設定を使用して PDF 圧縮に変換すると、検索性と長期的な形式の安定性の両方が保証されます。

不完全な OCR であっても、アーカイブの目的では、OCR を行わないよりもはるかに優れています。文字精度が 95% の文書でも、「請求書」を検索することで検索可能です。一部の単語の数文字が読み間違えられた場合でも、ほとんどの請求書が検索されます。完璧な OCR が理想的です。機能的な OCR は、テキスト レイヤーをまったく使用しないスキャンよりもはるかに便利です。

WukongPDF

PDF OCR を試してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →