テキストが PDF からコピーされない理由は 3 つあり、それぞれに異なる修正方法があります。 1 つを解決するアプローチは他のものには役に立たないため、自分がどの状況にあるかを診断することで、多くのフラストレーションを軽減できます。

理由 1: PDF はスキャンされた画像です
これが最も一般的な原因です。物理的な文書をスキャンすると、スキャナーはページの写真を撮影し、その写真を PDF コンテナー内に保存します。画面に表示されるテキストは画像の一部であり、ピクセルが文字のように見えるように配置されており、選択またはコピーできる実際のテキスト文字ではありません。それをクリックすることは、写真からテキストをコピーしようとするようなものです。
簡単なテスト: クリックしてドラッグして 1 つの単語を強調表示してみてください。個々の単語や文字を強調表示できる場合は、ファイル内に実際のテキストが存在します。カーソルが画像の四角形を選択しているように動作し、ページ コンテンツのボックスしか取得できない場合、それはスキャンされた画像です。
この問題を解決するのが OCR (光学式文字認識) です。 OCR ソフトウェアは画像を分析し、テキストを識別し、検索、選択、コピーできる実際のテキスト レイヤーを PDF に追加します。 OCR を実行すると、ドキュメントは同一に見えますが、通常の PDF のように動作します。 WukongPDF の OCR PDF ツールは、これをブラウザーで実行します。スキャンされた PDF をアップロードし、処理して、検索可能なバージョンをダウンロードします。
PDF OCR を試してみる
インストールは必要ありません。ブラウザで直接動作します。
理由 2: コピーはドキュメント所有者によって制限されています
PDF には、作成者が読者がドキュメントに対して実行できることを制限できる権限システムがあります。それらの制限の 1 つはコピーです。所有者は読み取りを許可しても、テキストの選択とコピーをブロックできます。この制限が設定されている場合、画面上でテキストを表示して読むことはできますが、テキストを選択しようとしても何も強調表示されず、貼り付けても何も表示されません。
これに該当するかどうかを確認できます。ほとんどの PDF ビューアでは、[ファイル] → [プロパティ] または [ドキュメント プロパティ] に移動し、[セキュリティ] タブまたは [権限] タブを確認します。許可されているものと制限されているものがリストされます。 「コンテンツのコピー」の場合「許可されていません」と表示されている場合は、コピー制限が有効になっています。
この制限を解除できるかどうかは、パスワードを持っているかどうかによって異なります。それが自分の文書であり、パスワードを覚えている場合は、PDF エディターを使用してパスワードを使用してその文書を開き、制限を解除できます。それが他の人から送信された文書で、コピーが意図的に制限されている場合は、制限のないバージョンを送信するよう依頼する必要があります。
理由 3: テキストをコピーしても文字化けしてしまう
場合によっては、コピーは技術的には機能しますが、貼り付けたものはゴミ、つまりランダムな文字、記号、または間違った順序のテキストになります。これはフォントのエンコードの問題です。一部の PDF では、非標準の文字マッピングを使用したカスタム フォントまたは埋め込みフォントが使用されています。 PDF ビューアは、フォントを使用してテキストを視覚的にレンダリングできますが、基になる文字コードをコピーしようとすると、表示されている文字に対応しません。
これは、古い PDF、特定のデザイン ソフトウェアで作成されたドキュメント、または異常なフォント エンコーディングを使用したファイルで最もよく発生します。唯一の信頼できる修正は、ドキュメントに対して OCR を実行することです。これにより、ビジュアル コンテンツが再読み取りされ、新しく正しいテキスト レイヤーが作成されます。これにより、壊れたエンコーディングがクリーンなコピー可能なテキストに置き換えられます。
テキストをコピーしても書式設定に問題がある場合
少し異なる問題: テキストは正しくコピーされますが、間違った改行、結合された単語、または欠落したスペースが表示されます。これは、PDF テキスト抽出の通常の動作です。 PDF では、テキストを Word 文書のように流れる段落としてではなく、ページ上に配置された文字として保存します。テキストの列または複数列のレイアウトをコピーする場合、抽出プログラムは、ある行がどこで終わり、別の行が始まるのかを常に認識しているわけではありません。
テキストの量が少ない場合は、通常、手動でクリーンアップするのが最も速い解決策です。大量の場合 (たとえば、レポート全体のコンテンツを抽出する場合)、PDF コンバーター ツールを使用して PDF を Word に変換すると、コピー&ペーストするよりもきれいな結果が得られます。これは、変換プロセスでは、生の文字位置を抽出するのではなく文書構造を保持しようとするためです。
適切な修正を選択する方法
修正を診断と照合します。
- テキストを選択できない、カーソルが画像のように動作する → OCR を実行
- テキストは画面上で選択できますが、貼り付けることはできません → ドキュメントの権限を確認し、制限されている場合は送信者に連絡してください
- 文字化けして貼り付ける → OCRを実行してテキストレイヤーを再構築する
- コピーは正しく行われますが、書式が正しくありません → 大規模な抽出の場合は Word に変換し、小規模な抽出の場合は手動でクリーンアップします
OCR ルートは 4 つのケースのうち 3 つを解決します。そのため、何が起こっているのかわからない場合は、通常、最初に OCR ルートを試します。 OCR を経てスキャンされた PDF は、通常のテキスト ドキュメントと同様に動作し、完全に検索、選択、コピーが可能です。
PDF OCR を試してみる
インストールは必要ありません。ブラウザで直接動作します。
