PDF テキストをコピーすると見た目が異なるのはなぜですか?

PDF からテキストをコピーして別の場所に貼り付けると、結果は間違ったものになります。文字の順序が乱れており、「fi」などの合字が正しくありません。「フィット」になるまたは消えたり、単語がスペースなしで並んだり、特殊文字が疑問符に変わったりします。これは PDF テキストエンコードの問題であり、それが発生する理由とそれに対して何ができるかを説明する特定の原因があります。

Why Does PDF Text Look Different When Copied?

PDF がテキストを保存する方法とそれがうまくいかない理由

PDF は主に視覚的な形式として設計されており、テキストの意味ではなく、ページがどのように見えるかを正確に記述します。 PDF の内部テキストエンコーディングは、標準の Unicode とはまったく異なる場合があります。一部の PDF は、内部に保存されている文字コードが標準の文字コードに対応していないカスタムグリフマッピングを使用しています。そのため、コピーすると、クリップボードは表示される文字ではなく内部コードを受け取ります。

適切に構築された PDF には、内部コードを標準 Unicode 文字に変換する方法を表示者に伝える ToUnicode マッピングテーブルが含まれています。この表が欠落しているか、不完全であるか、正しくない場合、テキストが画面上に完全に表示されている場合でも、コピー＆ペーストすると文字化けした結果が生成されます。表示とコピー可能なテキストは異なるシステムからのものです。表示では視覚的なグリフが使用され、コピーと貼り付けではテキストデータが使用されます。

PDF OCR を試してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

合字と特殊文字

合字は活版印刷の組み合わせです - 「fi」、「fl」、「ff」、「ffi」。 - 美的理由から、2 つまたは 3 つの文字が 1 つのグリフに結合されます。適切にエンコードされていない PDF では、合字グリフには、それが表す個々の文字に対する ToUnicode マッピングがありません。コピーすると、合字は 1 つの特殊文字 (fi ではなく ) になるか、何も表示されないか、プレースホルダー記号になります。

これが、専門的に組版された PDF からコピーすると、文字が欠けているテキスト (「office」などの単語) が生成される理由です。「オフィス」になるなぜなら「ffi」は合字には使用可能な Unicode マッピングがありませんでした。その単語は画面上では正しく見えました。基礎となるテキストデータが壊れていました。

単語間のスペースの欠落

一部の PDF は、スペースをテキストストリーム内の実際のスペース文字としてではなく、位置オフセットとして表します。ビューアは、スペース文字を挿入するのではなく、カーソル位置を移動することによって単語間のギャップをレンダリングします。コピーするとき、位置オフセットはスペース文字に変換されないため、単語は一緒に続きます。「言葉」の代わりに。

これは、テキスト間隔が標準のテキストエンコーディングではなくデザインレベルで制御されている場合、InDesign や Illustrator などのデザインアプリケーションからエクスポートされた PDF でよく発生します。

列と読み取り順序の問題

複数列の PDF では、視覚的な読み取り順序 (1 列目が下、次に 2 列目が下) が内部テキストの順序 (ページ幅全体で左から右) と一致しない場合があります。 2 列レイアウトからテキストをコピーすると、多くの場合、各列が 1 行ずつ交互に配置されたテキストが生成され、個々の単語は正しいにもかかわらず、乱雑に見えます。

これはエンコードの問題ではなく、読み取り順序の問題です。テキストは正しくエンコードされています。人間が読む順序と一致しない順序で保存されているだけです。この問題を解決するには、両方の列を選択するのではなく、一度に 1 つの列からテキストをコピーします。

コピーしたテキストが文字化けした場合の対処方法

別の PDF ビューアを試してください: ビューアが異なると、ToUnicode マッピングの処理方法が異なります。 Chrome のコピーでテキストが文字化けする場合は、Adobe Reader からコピーしてみてください。多くの場合、同じ PDF に対してよりきれいな結果が得られます。
最初に Word に変換します: a PDF から Word へのコンバーターは、変換中にテキストエンコーディングを再処理します。結果として得られる Word 文書では、元の PDF ではコピーアンドペーストできなかった場合でも、クリーンなコピーアンドペーストが生成されることがよくあります。
コピーに対して OCR を実行する: OCR ツールは、ページ画像から表示されているテキストを再読み取り、正しくエンコードされた新しいテキストを作成します。 OCR PDF の結果は、特にエンコードが不十分なプロ仕様の植字の場合、元のエンコードよりも優れたコピーアンドペーストを生成する可能性があります。
「検索と検索」を使用します。一般的なエラーの場合は置換します。同じ合字または文字が一貫して正しく貼り付けられない場合は、貼り付けた結果を Word に貼り付け、検索と検索を使用します。全体的に繰り返し発生するエラーを修正するには、「置き換え」を実行します。

問題の発生源での防止

PDF を作成していて、受信者が確実にコピー＆ペーストできるようにしたい場合は、正しい ToUnicode マッピングを生成するアプリケーションを使用してください。 Microsoft Word は、デフォルトで適切な Unicode マッピングを使用してエクスポートします。 Adobe InDesign は、設定に応じて適切なテキストエンコーディングを使用して、または使用せずにエクスポートできます。[PDF のエクスポート] ダイアログで、[タブオーダーにドキュメント構造を使用する] がオンになっていることを確認します。テキストアクセシビリティオプションが有効になっています。配布する前に、エクスポートされた PDF からのコピーアンドペーストをテストして、受信者に届く前にエンコードの問題を検出します。

PDF OCR を試してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →