スキャンした PDF でテキストを選択可能にする方法

スキャンされた PDF には、目で読むことはできますが、クリック、選択、コピー、検索することはできないテキストが表示されます。これは、「テキスト」が「テキスト」であるためです。これは実際には写真であり、ピクセルが文字のように配置されています。テキストを選択可能にするには、画像を読み取り、実際のテキストレイヤーをドキュメントに追加する OCR を実行する必要があります。 OCR 後、PDF は同一に見えますが、テキストはコピー可能、検索可能、およびアクセス可能になります。

How to Make Text Selectable in a Scanned PDF

スキャンされた PDF に対する OCR の影響

OCR (光学式文字認識) は、各ページ画像のピクセルパターンを分析し、文字と数字に対応する形状を識別し、表示されている文字に合わせて配置される隠しテキストレイヤーを作成します。 OCR PDF 処理後、ドキュメントには 2 つのレイヤーがあります。元のスキャン画像 (変更されていない、まだ表示されている) と、その下のテキストレイヤーであり、閲覧者が選択または検索するときに使用します。

ドキュメントの見た目は変わりません。OCR の前後でスキャンの見た目は変わりません。変更されるのはドキュメントの機能です。テキストが 1 文字ずつ選択可能になり、Ctrl+F 検索が機能し、コピーアンドペーストにより何も表示されずに実際のテキストが生成され、スクリーンリーダーでコンテンツを読み上げることができます。

PDF OCR を試してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

WukongPDF の OCR ツールを使用する

www.wukongpdf.com の WukongPDF は、ソフトウェアをインストールせずにブラウザーで OCR を処理します。スキャンした PDF をアップロードし、認識精度を高めるためにドキュメント言語を選択し、処理して、検索可能な結果をダウンロードします。変換されたファイルは、テキストレイヤーを備えた標準の PDF であり、すべての PDF ビューアと互換性があります。

ダウンロードしたら、すぐにテストします。PDF を開き、Ctrl+F を押して、最初のページに表示される単語を検索します。見つかった場合は、OCR が機能したことになります。文を選択してコピーしてみてください。貼り付けたテキストは、表示されているものと一致するはずです。何も見つからなかったり、コピーされたテキストが間違っているように見える場合は、おそらくスキャン品質が原因で OCR の精度に問題があったと考えられます。

Adobe Acrobat の拡張スキャン

Adobe Acrobat Pro および Acrobat Standard には、拡張スキャンと呼ばれる専用の OCR 機能が含まれています。スキャンした PDF を開き、[ツール] > [ツール] に移動します。スキャンの強化 >テキストを認識 >このファイル内。文書の言語を設定し、「テキストを認識」をクリックします。 Acrobat がページを処理し、テキストレイヤーを追加します。複数ページのドキュメントの場合、Acrobat は 1 回の操作ですべてのページを処理します。

Acrobat には「検索可能にする」機能もあります。このオプションは完全な OCR とは少し異なります。ドキュメント構造の再構築を試行せずにテキストレイヤーを追加します。ほとんどの目的には、正確なテキスト位置を備えた適切に構造化された Scanned PDF が生成されるため、標準の [テキストを認識] オプションが推奨されます。

OCR の精度に影響するもの

OCR の精度はスキャンの品質に直接関係します。同じ文書をうまくスキャンすると、ほぼ完璧な結果が得られます。スキャンが不十分な場合、手動修正が必要なエラーが発生します。

解像度: 300 DPI は、信頼性の高い OCR の最小値です。 200 DPI 未満では、特に小さなテキストで頻繁にエラーが発生することが予想されます。 600 DPI では精度が向上しますが、大きなファイルが生成されます。
コントラスト: 白い紙に黒い文字を鮮明に、ほぼ完璧な精度でスキャンします。色あせたインク、色付きの紙、またはコントラストが低い場合、エラーが発生しやすくなります。
Skew: ページを大きな角度でスキャンすると、より多くのエラーが発生します。最新の OCR ツールには、軽度の傾きを補正するデスキュー機能が含まれていますが、角度が大きいと精度が低下します。
フォントタイプ: 一般的なフォント (Times、Arial、Helvetica) の標準印刷書体が正確に認識されます。装飾的なフォント、手書きのフォント、または非常に小さいフォントでは、より多くのエラーが発生します。

OCR 後: テキストに頼る前に確認

OCR は完璧ではありません。高品質のスキャンでも時折認識エラーが発生します。よくある間違いには、0 と O、1 と l、rn と m を混同したり、ページの端近くの文字を読み間違えたりすることが含まれます。契約書、財務諸表、法的申請など、正確さが重要な文書の場合は、OCR 出力に依存する前に、オリジナルと照らし合わせて OCR 出力を確認してください。

Acrobat Pro では、検索と置換機能は、一般的な OCR エラーを体系的に特定するのに役立ちます。「0」を検索します。各結果をチェックして、「O」になるものがないか、またはその逆があるかどうかを確認します。重要な文書の場合、正確さを保証するには、元のスキャンに対して完全な校正を行うことが唯一の方法です。一般的な参照用途 (アーカイブを検索可能にしたり、分析用にテキストを抽出したりする) の場合は、通常、簡単なスポットチェックで十分です。

PDF OCR を試してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

スキャンした PDF でテキストを選択可能にする方法

スキャンされた __PDF に対する OCR の影響__

PDF OCR を試してみる

WukongPDF の OCR ツールを使用する

Adobe Acrobat の拡張スキャン

OCR の精度に影響するもの

OCR 後: テキストに頼る前に確認

PDF OCR を試してみる

スキャンされた PDF に対する OCR の影響