Others

PDF からテキストをコピーすると余分な改行が追加されるのはなぜですか?

PDF から段落をコピーして別の場所に貼り付けると、すべての行がハード リターンで終わります。テキストはリフローせず、ページ上の行がたまたま終了した場所で中断されるだけです。これは、最も一般的な PDF の問題の 1 つであり、それが発生する理由とその対処法を説明する特定の技術的原因があります。

Why Does Copying Text From a PDF Add Extra Line Breaks?

これが起こる理由: PDF がテキストを保存する方法

PDF は、Word や Google ドキュメントとは異なり、テキストを段落として保存しません。代わりに、個々の文字または小さな文字グループがページ上の特定の位置 (各テキストを表示されるべき場所に正確に配置する X 座標と Y 座標) とともに保存されます。 PDF レンダラーは、これらの配置された部分を描画して、表示される視覚的な結果を生成します。

テキストをコピーするとき、PDF ビューアはこれらの配置されたフラグメントからテキスト ストリームを再構築する必要があります。文字を順番に読み取り、垂直位置の変化に基づいて、ある行がどこで終わり、別の行が始まるかを推測する必要があります。改行 (Y 位置でのジャンプ) を検出すると、改行文字が挿入されます。その結果、PDF 内のすべての視覚行が、貼り付けられたテキスト内で個別の行になります。

これは、PDF テキスト抽出の仕組みの基本的な特性であり、特定のビューアのバグではありません。一部の PDF には、閲覧者が (段落内での) ソフトな行の折り返しとハードな段落の区切りを区別するのに役立つ構造情報が含まれていますが、多くの (特に古い PDF や特定のソフトウェアからエクスポートされたもの) には含まれていません。

WukongPDF

PDF を編集してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

最悪の場合: 複数列レイアウト

複数列のレイアウトでは、この問題がさらに悪化します。テキストが 2 列または 3 列で流れる場合、左から右、上から下の順序でテキストを抽出する PDF ビューアでは、多くの場合、異なる列からのテキストがインターリーブされます (左の列の行、次に右の列の行、次に左の列の次の行)。結果として得られるペーストはスクランブルされており、手作業による大幅なクリーンアップが必要になります。

2 段組形式の学術論文はこのことで悪名高いです。研究論文 PDF から段落をコピーすると、きれいな 1 列のテキスト ブロックではなく、両方の列から交互に断片が生成されることがよくあります。

少量のテキストのクイック修正

いくつかの段落の場合、最も早い修正は、貼り付け後にテキスト エディタまたはワード プロセッサで検索と置換の操作を行うことです。二重改行 (本物の段落を区切る) を維持しながら、単一の改行 (段落内の不要な改行) を置き換えたいと考えています。

Microsoft Word では、「検索と検索」を使用します。ワイルドカードで置換: 別の段落記号が続かない単一の段落記号 (^p) をスペースに置き換えます。プレーン テキスト エディターでは、ほとんどの検索と置換ツールで正規表現を使用して同じことを行うことができます。これにより、30 行の壊れたペーストが数秒で適切にリフローされた段落に縮小されます。

大量のテキストに対するより良いアプローチ

PDF から大量のテキストを抽出する場合、コピー&ペーストは間違ったツールです。 PDF Converter を使用して PDF を Word に変換すると、変換プロセスで生の文字位置を抽出するだけでなく、段落、見出し、レイアウトを識別して文書構造を再構築しようとするため、より良い結果が得られます。

特に複雑なレイアウトの場合、変換された Word 文書はまだレビューする必要がありますが、段落構造は通常そのままであり、文書全体で行ごとの改行を扱うことはありません。

ビューア固有の改善

一部の PDF ビューアは、他のビューアよりもテキスト抽出を適切に処理します。 Adobe Acrobat Reader には「書式付きコピー」機能があります。このオプションは、基本的なコピーよりも段落の再構築に優れています。テキストを定期的に抽出している場合は、同じ PDF 上でさまざまなビューアをテストすると、よりきれいな出力を生成するビューアが見つかることがあります。

最終的に、テキスト抽出の品質は、PDF がどのように作成されたかによって決まります。適切な段落タグ付けを備えた最新のワード プロセッサからエクスポートされた、適切に構造化された PDF は、きれいに抽出されます。ファイルに印刷された、画像から変換された、または構造情報が埋め込まれていないソフトウェアからエクスポートされた PDF は、コピー時に常に壊れたテキストを生成します。これらのファイルの場合、Word への変換が信頼できるパスです。

WukongPDF

PDF を編集してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →