Tips & Tricks

スキャンした PDF を Word に変換する方法

スキャンした PDF を Word に変換するのは 2 段階のプロセスですが、ほとんどの人はスキップしようとしますが、結果がなぜ悪いのか疑問に思います。スキャンには、実際のテキストではなく、テキストの画像が含まれています。編集可能な Word コンテンツを取得するには、PDF から Word への変換が有効に機能する前に、OCR で画像を読み取って文字を抽出する必要があります。この順序を理解すると、実用的な結果が得られるか、画像が満載の Word 文書が得られるかが変わります。

How to Convert a Scanned PDF to Word

スキャンされた PDF に別のアプローチが必要な理由

標準の PDF から Word へのコンバーターは、デジタル PDF からテキスト レイヤーを抽出し、それを Word 書式設定にマッピングすることによって機能します。 Scanned PDF にはテキスト レイヤはなく、ページの画像のみが含まれます。標準コンバータを実行すると、編集可能なテキストではなく、ページの画像を含む Word 文書が得られます。編集可能なコンテンツを取得するには、まず画像を OCR で処理してテキスト レイヤーを作成する必要があります。

完全なワークフローは次のとおりです。スキャンされた PDF → OCR → テキスト レイヤーを含むデジタル PDF → PDF から Word への変換。一部のツールは両方のステップを自動的に処理します。個別に行う必要があるものもあります。ツールがどのアプローチを採用しているかを知ることは、出力から何を期待できるかを理解するのに役立ちます。

WukongPDF

PDF を Word に変換してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

OCR と変換を一緒に処理するツール

Adobe Acrobat Pro は、このワークフローにとって最も機能的なオプションです。スキャンした PDF を Acrobat で開き、[ファイル] > [PDF] を使用すると、エクスポート先 > Microsoft Word、Acrobat は OCR が必要であることを自動的に検出し、画像に対して認識を実行し、認識されたテキストを Word 形式に変換します。その結果、埋め込まれた画像ではなく実際の編集可能なテキストを含む Word 文書が作成されます。

www.wukongpdf.com の WukongPDF は、変換パイプラインでスキャンされた PDF を処理します。スキャンされたファイルをアップロードすると、ツールは Word に変換する前に OCR を適用します。精度はスキャンの品質によって異なります。標準フォントのクリーンで高解像度のスキャンではほぼ完璧な結果が得られますが、低品質または手書きのスキャンでは後で手動で修正する必要があります。

2 段階のアプローチ: 最初に OCR、次に変換

出力をより適切に制御するために、特に複雑なレイアウト、表、または複数の列を含むドキュメントの場合、OCR と変換を別のステップとして実行すると、多くの場合、よりクリーンな結果が得られます。

  • ステップ 1: WukongPDF の OCR ツールまたは Adob​​e Acrobat の拡張スキャン機能を使用して、スキャンされた PDF で OCR を実行します。これにより、PDF は PDF のままでテキスト レイヤーが追加されます。
  • ステップ 2: PDF の OCR 出力を確認します。続行する前に、認識されたテキストが正確であることを確認します。
  • ステップ 3: PDF から Word へのコンバーターを使用して、OCR 処理された PDF を Word に変換します。コンバーターは実際のテキストを処理できるようになり、よりきれいな Word 文書を生成します。

結果の精度に影響するもの

  • スキャン解像度: 300 DPI 以上により、正確な OCR が生成されます。 150 DPI 未満では、特に小さなテキストで頻繁に認識エラーが発生することが予想されます。
  • フォント タイプ: 一般的な書体 (Times New Roman、Arial、Calibri) の標準印刷フォントが高精度で認識されます。装飾的なフォントや非常に小さいフォントでは、より多くのエラーが発生します。
  • ドキュメントの状態: インクの色褪せ、スキャンの傾き、汚れ、紙の黄ばみはすべて、OCR の精度を大幅に低下させます。
  • レイアウトの複雑さ: 単一列のドキュメントは、複数列のレイアウト、表を含むドキュメント、またはテキストとグラフィックが混在するページよりもきれいに変換されます。

Word 出力から期待できること

スキャンが良好で OCR が正確であっても、Word 出力にはクリーンアップが必要になります。書式設定が完全​​に転送されることはほとんどありません。行間、フォント、段落スタイルの調整が必要になることがよくあります。テーブルの再構築が必要になる場合があります。元の文書に表示されている画像は、編集可能なコンテンツとしてではなく、Word ファイルに埋め込み画像として表示されます。

変換後のレビューパスにかかる時間を予算に入れます。単純なテキスト文書をきれいにスキャンする場合、修正作業は最小限で済み、主に書式設定の調整が行われます。複雑なドキュメントや低品質のスキャンの場合は、OCR エラーの修正と再フォーマットに有意義な時間を費やすことが予想されます。数字を注意深く確認してください。OCR では、0 と O、1 と l、6 と 8 を混同することが最も多く、財務文書や技術文書に重大な間違いを引き起こす可能性があります。

WukongPDF

PDF を Word に変換してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →