Others

OCR とは何ですか?また、PDF ではどのように機能しますか?

OCR は光学式文字認識の略です。これは、スキャンされた文書、ページの写真、画像のみの PDF などの画像からテキストを読み取り、表示された内容をコンピューターが処理できる実際のテキスト データに変換するテクノロジーです。文書をスキャンしたときに、テキストを検索したりコピーしたりできないのはなぜかと疑問に思ったことがあるなら、OCR が解決策です。

What Is OCR and How Does It Work With PDFs?

OCR が解決する問題

文書をスキャンすると、スキャナーはページの写真をキャプチャします。コンピュータにとって、この写真は単なるピクセル、つまりグリッド上に配置された色の点にすぎません。画像に表示される単語は、コンピュータの観点からはテキストとして存在しません。検索したり、コピーしたり、翻訳したり、読み上げたりすることはできません。

OCR はこのギャップを埋めます。画像内のピクセル パターンを分析し、文字や数字に対応する形状を識別し、それらの形状を実際のテキスト文字に変換します。 OCR PDF 処理後、ドキュメントには 2 つのレイヤーがあります。元の画像 (見た目は全く同じです) と、コンピューターが読み取り、検索、処理できる隠しテキスト レイヤーです。

WukongPDF

PDF OCR をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →

OCR の実際の仕組み

最新の OCR システムは、数百万の文書画像でトレーニングされた機械学習モデルを使用します。ページを処理するとき、システムはいくつかの段階を経ます。

  • 画像の前処理: 画像がクリーンアップされます。歪んでいる場合はまっすぐにされ、コントラストが強化され、ノイズが低減されます。画像がきれいであれば、より正確な認識が得られます。
  • レイアウト分析: システムは、テキスト ブロックがどこにあるか、画像がどこにあるか、読み取り順序、列の境界、表のセルなど、ページの構造を識別します。
  • 文字認識: モデルは各文字の形状を分析し、最も可能性の高い文字、数字、または記号を割り当てます。コンテキストを考慮します。 「the」である可能性が高くなります。 — 精度を向上させるため。
  • テキスト レイヤーの作成: 認識された文字は単語と文章に組み立てられ、元の画像と位置が合うように配置され、検索可能なテキスト レイヤーとして PDF に埋め込まれます。

OCR の精度に影響するもの

OCR の精度は、ソース画像の品質と認識されるコンテンツによって大きく異なります。

  • スキャン解像度: DPI が高くなると、文字のエッジがより鮮明になり、認識が向上します。信頼性の高い OCR を実現するには、300 DPI が推奨される最小値です。 150 DPI 未満の画像では、重大なエラーが発生することがよくあります。
  • フォント タイプ: 一般的な書体 (Times、Arial、Helvetica) の標準印刷フォントが高精度で認識されます。装飾的なフォント、珍しい書体、非常に小さなテキストでは、より多くのエラーが発生します。
  • ドキュメントの状態: 黄ばんだ紙、インクの褪色、汚れ、斜めのスキャン、および影はすべて認識品質を低下させます。きれいでまっすぐな、高コントラストのスキャンにより、最良の結果が得られます。
  • 言語: 共通言語 (英語、スペイン語、フランス語、ドイツ語、中国語、日本語) には、豊富なトレーニング データと高い精度があります。あまり一般的ではない言語やスクリプトでは、より多くのエラーが発生する可能性があります。
  • 手書き: 印刷されたテキストの OCR は非常に正確です。手書き認識は、これとは異なり、より困難な問題です。精度は、手書きのスタイルと使用される特定のモデルによって大幅に異なります。

結果はどのようになるか

OCR 後、PDF は以前と同じように見えます。元のスキャン画像は変更されていません。違いは目には見えませんが、機能的には重要です。ドキュメントには、画像に合わせて非表示のテキスト レイヤーが配置されます。単語を検索すると、ビューアはテキスト レイヤーでその単語を見つけ、画像内で強調表示します。テキストを選択してコピーすると、テキスト レイヤーからコピーされます。スクリーン リーダーがコンテンツを読み上げると、テキスト レイヤーが読み取られます。

画像レイヤーとテキストレイヤーは分離されており、OCR によって元のスキャンが変更されることはありません。 OCR でエラーが発生した場合でも、画像には正しい元のテキストが表示されます。隠しテキストレイヤーのみに間違いが含まれています。

__PDF に OCR を適用する方法__

www.wukongpdf.com にある WukongPDF の OCR PDF ツールは、デスクトップ ソフトウェアを必要とせずにこれを処理します。スキャンされた PDF をアップロードし、精度を高めるためにドキュメント言語を選択し、処理し、検索可能な結果を​​ダウンロードします。この操作には通常、標準ドキュメントの場合 10 ~ 30 秒かかります。

Adobe Acrobat Pro には、認識品質を制御し、複数ページのドキュメントを処理するための追加オプションを備えた OCR 機能 ([ツール] > [スキャンの強化] > [テキスト認識]) が組み込まれています。大量のスキャン文書を処理する組織の場合、Acrobat のバッチ OCR 機能により、ファイルのフォルダー全体が自動的に処理されます。

WukongPDF

PDF OCR をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →