PDF をテキストに変換する方法

PDF からのテキストの抽出 (プレーンテキストファイルまたは編集可能なドキュメントへのいずれか) は、最も頻繁に必要となる PDF 操作の 1 つです。最も効果的なアプローチは、PDF に実際のテキストレイヤーがあるか、スキャンされた画像であるか、および抽出されたテキストをどうするかによって異なります。

最も簡単な方法: コピーして貼り付け

選択可能なテキストを含む PDF の場合、多くの場合、コピーしてテキストエディターまたはワードプロセッサに貼り付けるのが最も早い方法です。 PDF を開き、Ctrl+A を押してすべてを選択し、Ctrl+C を押してコピーし、Ctrl+V を押してメモ帳、TextEdit、Word、またはテキストが必要な場所に貼り付けます。これは、短いドキュメントの場合、または構造の保持を気にせずコンテンツをすぐに必要とする場合に適しています。

制限: コピー＆ペーストでは書式設定が保持されず、複数列の PDF や複雑なレイアウトの文書では、テキストが間違った順序で表示されることがよくあります。列がインターリーブされ、脚注が段落の途中に表示され、ヘッダーとフッターが本文に混在します。単純な線形ドキュメントの場合、これは問題になりません。複雑なレイアウトの場合、抽出されたテキストの操作が困難になる可能性があります。

PDF を Word に変換してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

構造を改善するために Word に変換する

テキスト抽出で段落、見出し、基本構造を保持する必要がある場合、コンテンツを単にプレーンテキストとして読むのではなく、ワードプロセッサで編集できるようにするため、コピーアンドペーストよりも Word に変換する方が適しています。 PDF Converter は文書構造を分析し、すべてのテキストを読み上げ順にダンプするのではなく、段落、見出し、リスト、表を適切な Word 要素として再構築しようとします。

Google ドキュメントはこれを無料で行います。PDF をドライブにアップロードし、Google ドキュメントで開くと、テキストがその構造を適切に保持した状態で表示されます。複雑なドキュメントをより正確に変換するには、専用の PDF-to-Word ツールが、Google の組み込みインポーターよりも適切にレイアウト分析を処理します。

プレーンテキスト (.txt) への抽出

データ処理、他のツールへのコンテンツのフィード、または書式設定を行わずにテキストコンテンツのみをアーカイブする場合は、Word 変換よりもプレーンな .txt 抽出の方がクリーンです。 Adobe Acrobat (有料版) では、[ファイル] → [エクスポート先] → [テキスト (プレーン)] を選択して、PDF をプレーンテキストとして保存できます。無料の Acrobat Reader はテキストに保存できませんが、すべてをコピーしてメモ帳に貼り付けることができ、実質的には同じ結果になります。

バッチ抽出またはプログラムによる使用の場合、Python と pdfplumber または PyPDF2 ライブラリを使用すると、複数の PDF からテキストが自動的に抽出されます。これは、多数のドキュメントを処理する必要がある場合に便利です。 pdftotext (Poppler ユーティリティパッケージの一部。Mac では Homebrew 経由、Linux ではパッケージマネージャー経由で利用可能) のようなコマンドラインツールは、コードを書かずに同じことを効率的に実行します。

スキャンされたPDF: 最初のOCR

テキストレイヤーのないスキャンされた PDF の場合、上記の方法はどれも機能しません。抽出するテキストがありません。ページは画像として保存されます。抽出を可能にする前に、最初に OCR を実行して文字を認識し、テキストレイヤーを作成する必要があります。 WukongPDF の OCR PDF ツールは、テキストレイヤーを PDF に追加します。その後、上記のコピー＆ペーストまたは変換方法は、OCR されたバージョンで正常に機能します。

Google ドライブの Open with Google Docs も、スキャンされた PDF に対して OCR を自動的に実行します。これは、OCR とテキスト抽出が 1 つのステップで行われ、スキャンから直接編集可能なドキュメントが生成されるため、より便利な無料オプションの 1 つです。いつものように、精度はスキャンの品質に依存します。

テキスト抽出で失われるもの

テキストを抽出すると、画像、チャート、図、および視覚的な書式設定が破棄されます。抽出方法によっては、表がタブ区切りのテキストとして表示される場合や、乱雑になる場合があります。数学表記、化学式、特殊な記号は、抽出後に正しく保存されないことがよくあります。省略されたり、プレースホルダー文字に置き換えられたり、文字化けしたシーケンスとして表示されたりする可能性があります。これらの要素が重要な文書の場合、プレーンテキストではなく Word に変換すると、元の構造がより多く保持されます。

PDF を Word に変換してみる

インストールは必要ありません。ブラウザで直接動作します。

始める →

PDF をテキストに変換する方法

最も簡単な方法: コピーして貼り付け

PDF を Word に変換してみる

構造を改善するために Word に変換する

プレーン テキスト (.txt) への抽出

スキャンされたPDF: 最初のOCR

テキスト抽出で失われるもの

PDF を Word に変換してみる

プレーンテキスト (.txt) への抽出