スキャンされた PDF には、目で読むことはできますが、クリック、選択、コピー、検索することはできないテキストが表示されます。これは、「テキスト」が「テキスト」であるためです。これは実際には写真であり、ピクセルが文字のように配置されています。テキストを選択可能にするには、画像を読み取り、実際のテキスト レイヤーをドキュメントに追加する OCR を実行する必要があります。 OCR 後、PDF は同一に見えますが、テキストはコピー可能、検索可能、およびアクセス可能になります。

スキャンされた __PDF に対する OCR の影響__
OCR (光学式文字認識) は、各ページ画像のピクセル パターンを分析し、文字と数字に対応する形状を識別し、表示されている文字に合わせて配置される隠しテキスト レイヤーを作成します。 OCR PDF 処理後、ドキュメントには 2 つのレイヤーがあります。元のスキャン画像 (変更されていない、まだ表示されている) と、その下のテキスト レイヤーであり、閲覧者が選択または検索するときに使用します。
ドキュメントの見た目は変わりません。OCR の前後でスキャンの見た目は変わりません。変更されるのはドキュメントの機能です。テキストが 1 文字ずつ選択可能になり、Ctrl+F 検索が機能し、コピーアンドペーストにより何も表示されずに実際のテキストが生成され、スクリーン リーダーでコンテンツを読み上げることができます。
PDF OCR を試してみる
インストールは必要ありません。ブラウザで直接動作します。
WukongPDF の OCR ツールを使用する
www.wukongpdf.com の WukongPDF は、ソフトウェアをインストールせずにブラウザーで OCR を処理します。スキャンした PDF をアップロードし、認識精度を高めるためにドキュメント言語を選択し、処理して、検索可能な結果をダウンロードします。変換されたファイルは、テキスト レイヤーを備えた標準の PDF であり、すべての PDF ビューアと互換性があります。
ダウンロードしたら、すぐにテストします。PDF を開き、Ctrl+F を押して、最初のページに表示される単語を検索します。見つかった場合は、OCR が機能したことになります。文を選択してコピーしてみてください。貼り付けたテキストは、表示されているものと一致するはずです。何も見つからなかったり、コピーされたテキストが間違っているように見える場合は、おそらくスキャン品質が原因で OCR の精度に問題があったと考えられます。
Adobe Acrobat の拡張スキャン
Adobe Acrobat Pro および Acrobat Standard には、拡張スキャンと呼ばれる専用の OCR 機能が含まれています。スキャンした PDF を開き、[ツール] > [ツール] に移動します。スキャンの強化 >テキストを認識 >このファイル内。文書の言語を設定し、「テキストを認識」をクリックします。 Acrobat がページを処理し、テキストレイヤーを追加します。複数ページのドキュメントの場合、Acrobat は 1 回の操作ですべてのページを処理します。
Acrobat には「検索可能にする」機能もあります。このオプションは完全な OCR とは少し異なります。ドキュメント構造の再構築を試行せずにテキスト レイヤーを追加します。ほとんどの目的には、正確なテキスト位置を備えた適切に構造化された Scanned PDF が生成されるため、標準の [テキストを認識] オプションが推奨されます。
OCR の精度に影響するもの
OCR の精度はスキャンの品質に直接関係します。同じ文書をうまくスキャンすると、ほぼ完璧な結果が得られます。スキャンが不十分な場合、手動修正が必要なエラーが発生します。
- 解像度: 300 DPI は、信頼性の高い OCR の最小値です。 200 DPI 未満では、特に小さなテキストで頻繁にエラーが発生することが予想されます。 600 DPI では精度が向上しますが、大きなファイルが生成されます。
- コントラスト: 白い紙に黒い文字を鮮明に、ほぼ完璧な精度でスキャンします。色あせたインク、色付きの紙、またはコントラストが低い場合、エラーが発生しやすくなります。
- Skew: ページを大きな角度でスキャンすると、より多くのエラーが発生します。最新の OCR ツールには、軽度の傾きを補正するデスキュー機能が含まれていますが、角度が大きいと精度が低下します。
- フォント タイプ: 一般的なフォント (Times、Arial、Helvetica) の標準印刷書体が正確に認識されます。装飾的なフォント、手書きのフォント、または非常に小さいフォントでは、より多くのエラーが発生します。
OCR 後: テキストに頼る前に確認
OCR は完璧ではありません。高品質のスキャンでも時折認識エラーが発生します。よくある間違いには、0 と O、1 と l、rn と m を混同したり、ページの端近くの文字を読み間違えたりすることが含まれます。契約書、財務諸表、法的申請など、正確さが重要な文書の場合は、OCR 出力に依存する前に、オリジナルと照らし合わせて OCR 出力を確認してください。
Acrobat Pro では、検索と置換機能は、一般的な OCR エラーを体系的に特定するのに役立ちます。 「0」を検索します。各結果をチェックして、「O」になるものがないか、またはその逆があるかどうかを確認します。重要な文書の場合、正確さを保証するには、元のスキャンに対して完全な校正を行うことが唯一の方法です。一般的な参照用途 (アーカイブを検索可能にしたり、分析用にテキストを抽出したりする) の場合は、通常、簡単なスポットチェックで十分です。
PDF OCR を試してみる
インストールは必要ありません。ブラウザで直接動作します。
