はい、ただし、アプローチは必要な編集の種類によって異なります。スキャンされた PDF は、デジタルで作成された PDF とは根本的に異なります。これはテキスト文書ではなく、紙の写真です。この区別によって、何が可能か、そして変更を加えるのにどれだけの労力がかかるかが決まります。

スキャンされた PDF の編集が難しい理由
文書をスキャンすると、スキャナーはページの写真を撮ります。表示されるテキストは、ファイルに保存されている実際のテキスト文字ではなく、文字のように見えるように配置されたピクセルです。クリックして変更するための基礎となるテキスト レイヤーはありません。標準の PDF エディターでは、JPEG 写真内のテキストを編集できるのと同様、スキャンした PDF 内の個々の単語を変更することはできません。
このため、編集のアプローチは何をしようとしているかによって異なります。スキャンしたページに新しいものを追加するのは比較的簡単です。既存のコンテンツを変更する (単語を変更したり、数字を修正したりする) のはより難しく、より多くの手順が必要です。
PDF OCR を試してみる
インストールは必要ありません。ブラウザで直接動作します。
注釈、テキスト、署名の追加
スキャンされた PDF に対する最も簡単な編集タイプは、既存のスキャンの上にコンテンツを追加することです。ほとんどの PDF Editor ツールでは、OCR や特別な処理を行わずに、スキャンされたページ上にテキスト ボックス、注釈、ハイライト、署名を配置できます。スキャンはそのままの下に残ります。新しい要素が上に浮かび上がります。
これは、スキャンした空白のフォームに記入する、スキャンした契約書に署名を追加する、スキャンした文書にコメントをマークアップする、ページに「承認済み」のスタンプを押すなど、ほとんどの実用的な使用例をカバーしています。または「機密」。これらはすべて、最初にスキャンを変換する必要がなく、直接機能します。
既存のテキストの編集: 最初の OCR
スキャンした文書内に既に存在するテキストを変更する必要がある場合 (エラーの修正、名前や番号の更新、句の変更など)、最初のステップは OCR です。 OCR (光学文字認識) はスキャンを読み取り、テキストの画像を実際のテキスト文字に変換します。 OCR が実行されると、ドキュメントには編集者が操作できる実際のテキスト レイヤーが作成されます。
WukongPDF の OCR PDF ツールは、スキャンされた PDF にテキスト レイヤーを追加します。処理後、文書を検索し、テキストをコピーし、編集ツールによっては、認識されたテキストに変更を加えることができます。ページの外観は維持され、テキストはインタラクティブになります。
OCR の精度はスキャンの品質に依存します。鮮明に印刷されたテキストをクリーンで高コントラストでスキャンすると、98 ~ 99% の精度で OCR が行われます。色褪せたスキャン、手書きの内容、または珍しいフォントを使用した文書では、手動での修正が必要なエラーがさらに発生します。
Word に変換して大幅な編集を行う
段落の書き換え、文書の再構築、レイアウトの変更など、大幅な変更を加える必要がある場合は、スキャンした PDF を Word に変換するのが最も現実的な方法です。変換プロセスでは、OCR が自動的に実行され、テキストが抽出され、編集可能な Word 文書で書式設定が再作成されます。
結果は完全なレプリカではありません。テーブル、列、複雑な書式設定は、多くの場合、変換後にクリーンアップが必要になります。ただし、最終的には、通常どおり作業できる形式で編集可能なテキストが得られます。 Word で変更を加え、完了したら PDF にエクスポートして戻します。
このアプローチは、テキストの多いドキュメントに適しています。レイアウトや視覚的な書式設定が重要で正確に保存する必要があるフォーム、証明書、またはドキュメントのスキャンの場合、Word に変換して元に戻すと、レイアウトに十分な変更が加えられるため、価値がない可能性があります。スキャンに修正をオーバーレイする方がきれいです。
コンテンツのカバーと置換
OCR を使用せずにスキャンした PDF に小さな修正を加えるための実用的なトリック: 間違ったコンテンツを白い四角形で覆い、その上に正しいコンテンツを含むテキスト ボックスを配置します。これは回避策であり、完全な編集ではありませんが、完全な OCR と変換のワークフローを実行せずに特定の番号または名前を修正する場合に機能します。ズームインすると視覚的な結果は修正のように見えますが、通常の読み取りサイズでは通常は許容範囲です。
編集の場合、コンテンツを永久に削除して復元できないようにする場合、このホワイトボックスの方法は適切ではありません。コンテンツを視覚的に隠すだけです。元のテキストまたは画像はその下のファイルに残ります。適切な編集には、基礎となるデータを完全に削除するツールが必要です。
適切なアプローチの選択
メソッドをタスクに一致させます。
- 署名を追加するか空白フィールドに記入 → スキャンに直接配置、OCR は必要ありません
- ドキュメントを検索可能にする → OCR を実行し、スキャンはそのままにします
- 小さなエラーを修正 → 白いボックスで覆い、修正されたテキストをオーバーレイ
- 実質的なコンテンツを書き直す → OCR して Word に変換し、編集して PDF にエクスポートし直す
PDF OCR を試してみる
インストールは必要ありません。ブラウザで直接動作します。
