Tips & Tricks

PDF から Excel にテーブルをコピーする方法

データ テーブルを含む PDF は Excel に簡単にコピーできるように見えますが、実際に試してみると、データが 1 つの列でごちゃ混ぜになったり、間違った場所で改行が入ったり、元のテーブル構造に対応しないセルが結合されたりすることがわかります。テーブル データを PDF から Excel にきれいに取得するには、特定の PDF タイプにどの方法が機能するかを知る必要があります。

How to Copy a Table From a PDF to Excel

コピー&ペーストで通常乱雑な結果が生じる理由

PDF は、テーブルのコンテンツを、行と列を含む構造化されたテーブル データとしてではなく、ページ上の特定の座標に配置された個々のテキスト要素である配置テキストとして格納します。 PDF からコピーして貼り付ける場合、ファイルの内部構造に表示される順序でテキストをコピーすることになります。これは、視覚的に読み取れる順序と一致しない場合があります。 10 行ある 3 列の表の場合、列を区切らずに 30 行のテキストとして貼り付けることができます。

一部の PDF ビューアは、他のものよりも貼り付け中のテーブル検出を適切に処理します。 Adobe Acrobat Reader のコピーは、ブラウザベースのビューアよりも優れた結果を生成する傾向があります。しかし、複雑なテーブルの場合、大幅な手動クリーンアップを行わずにコピー&ペーストを使用できるほどクリーンになることはほとんどありません。

WukongPDF

PDF を Excel に変換してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

最良の方法: PDF を Excel に直接変換

専用の PDF から Excel へのコンバーターは、PDF のレイアウトを分析し、テーブル構造を識別し、コンテンツをスプレッドシートのセルにマップします。その結果、表の行と列が元の PDF レイアウトに対応する Excel ファイルが作成されます。これは、コピーして貼り付けるよりもはるかにきれいです。

www.wukongpdf.com にある WukongPDF の PDF to Excel ツールは、これを処理します。PDF をアップロードし、Excel ファイルをダウンロードします。明確なテーブル構造を持つデジタル PDF の場合、変換は通常、最小限の修正で使用できるほどきれいになります。結合されたセル、ネストされたヘッダー、または不規則な構造を含む複雑なテーブルの場合は、手動によるクリーンアップが依然として必要ですが、コピー&ペーストよりもはるかに少ないです。

スキャンされたPDF: 最初にOCRしてから変換

表を含む PDF がスキャンされたもの (デジタル ドキュメントではなくページの画像) である場合、コピーと貼り付けはまったく機能せず (コピーするテキストがない)、直接変換では結果が悪くなります。スキャンされたテーブルは、最初に実際のテキストを抽出するために OCR 処理が必要で、次にテキストをテーブル構造として解釈する必要があります。

一部の PDF から Excel へのコンバーターは、スキャンされたドキュメントを検出すると、自動的に OCR を適用します。他のものでは、最初に OCR を実行してから変換する必要があります。変換を試みる前にスキャンの品質を確認してください。行と列の境界が明確なテーブルは、線が薄くなったり、間隔が不規則だったりするテーブルよりも変換に優れています。

Adobe Acrobat Pro: Excel にエクスポート

Adobe Acrobat Pro には、Excel へのエクスポート機能が組み込まれています (ファイル > エクスポート > スプレッドシート > Microsoft Excel ワークブック)。これは、利用可能なテーブル抽出ツールの中で最も正確なツールの 1 つです。Acrobat のテーブル検出アルゴリズムは成熟しており、幅広い種類のテーブルを処理します。

エクスポートでは、各ページの各テーブルが個別のワークシートまたはセクションに配置される Excel ファイルが作成されます。複雑な複数ページのテーブル、ヘッダーが繰り返されるテーブル、セルが結合されたテーブルはすべて適切に処理されます。 Acrobat Pro を使用できる場合、これがテーブル抽出の最高品質のオプションです。

コピー&ペーストが唯一の選択肢である場合 — クリーンアップする方法

変換ツールが利用できず、コピー&ペーストを使用する必要がある場合は、次の手順でクリーンアップ作業を最小限に抑えます。

  • Adobe Reader で表のテキストを選択し、「編集」>「編集」を使用します。可能な場合はフォーマットを使用してコピーします。これにより、単純なコピーよりも表形式の構造がより多く保持されます。
  • Excel に直接貼り付けるのではなく、最初にテキスト エディター (メモ帳、TextEdit) に貼り付けます。こうすることで、Excel のセルの書式設定によって作業が複雑になることなく、生の構造を確認できます。
  • テキスト エディターからテキストをコピーし、[形式を選択して貼り付け] > [形式を選択して貼り付け] を使用して Excel に貼り付けます。文章
  • Excel のテキストを列に変換機能 (データ > テキストを列に) を使用して、貼り付けたデータを区切り文字または固定幅に基づいて個別の列に分割します。

どのツールもきれいな結果を生成しない場合

一部のテーブルは、自動化ツールにとって非常に困難です。テーブル内にネストされたテーブル、複雑なセル パターンが結合されたテーブル、ヘッダーが繰り返される複数のページにまたがるテーブル、PDF で正式なテーブル マークアップなしでデータが視覚的に構造化されているテーブルなどです。これらの場合、最も現実的なアプローチは、PDF を参照として使用して手動でデータを入力することです。小さなテーブルの場合、自動化ツールで強制的にクリーンな結果を生成し、すべてのエラーを手動で修正するよりも時間がかかりません。

WukongPDF

PDF を Excel に変換してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →