破損したPDFからテキストを回復する方法

3 年前の契約書の唯一のコピーは PDF ですが、開くとエラーメッセージが表示されます。現在は廃止された Web サイトからダウンロードした調査レポートには、4 ページ以降は何も表示されません。顧客の署名済み契約書がエラーを発生したドライブに保存されており、回復されたファイルは部分的に破損しています。このような状況はストレスがかかりますが、必ずしも絶望的なわけではありません。破損した PDF からのテキストの回復は、人々が予想するよりも頻繁に可能です。問題は、どのアプローチを最初に試すべきかを知ることです。

どのような種類の損害が発生しているのかを理解する

すべての PDF 損傷が同じであるわけではなく、回復アプローチは何が問題になったかによって異なります。いくつかの簡単な観察から多くのことがわかります。

ファイルがまったく開きません: ファイルヘッダーまたは内部構造が破損しています。修復ツールは、コンテンツにアクセスする前にファイル構造を再構築する必要があります。
ファイルは開きますが、一部のページが空白または欠落しています: 部分破損 — ファイル構造は無傷ですが、一部のコンテンツオブジェクトが破損しているか欠落しています。リカバリにより、破損していない部分が回復される場合があります。
テキストが記号または文字化けとして表示されます: フォントエンコーディングが破損しています。テキストデータはそのままである可能性がありますが、文字とグリフの間のマッピングは壊れています。
ファイルは非常に小さいです (もっと大きいはずのファイルが数 KB です): ダウンロードまたは転送が不完全です。ファイルは完全には受信されませんでした。ソースから新しいコピーを取得することは、修復ではなく修正です。

PDF の修復をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →

まず別の PDF ビューアを試してください

あるビューアでは失敗した一部のファイルは、別のビューアでは正常に開きます。 Adobe Reader、Chrome の組み込み PDF ビューア、Apple Preview、Foxit、および Sumatra PDF はすべて、異なるレンダリングエンジンを使用します。あるエンジンでは解析できないファイルでも、別のエンジンでは回復許容範囲内にある可能性があります。

閲覧者がファイルを開いた場合、たとえ部分的であっても、すぐに表示されているテキストをすべてコピーし (Ctrl+A、次に Ctrl+C)、Word 文書に貼り付けてみます。これにより、ファイル構造が回復可能かどうかに関係なく、ファイルの現在の状態でアクセス可能なテキストがすべてキャプチャされます。不完全なテキスト抽出は何も行わないよりはマシであり、著しく破損したファイルからでもコンテンツの大部分をキャプチャできる可能性があります。

PDF 修復ツールを使用する

専用の Repair PDF ツールは、破損したファイルをスキャンして回復可能なコンテンツオブジェクト (テキストストリーム、画像、ページ定義) を探し、見つかったものから有効な PDF を再構築することにより、内部ファイル構造の再構築を試みます。これは、単にファイルを開くこととは異なります。修復ツールは特に構造上の損傷を探して回避します。

www.wukongpdf.com にある WukongPDF の修復ツールがこれを処理します。破損したファイルをアップロードし、修復プロセスを実行して、回復可能なものはすべてダウンロードします。ほとんどのコンテンツはそのままでもファイル構造が壊れている、部分的に破損したファイルの場合、完全に読み取り可能な PDF が生成されることがよくあります。ひどく破損したファイルの場合は、コンテンツの一部が回復される場合があります。出力は、基礎となるデータが損傷からどれだけ生き残ったかによって異なります。

ファイルデータからテキストを直接抽出

PDF ファイルは、ファイル構造内のストリームにテキストを保存します。 PDF 構造が破損しすぎてビューアがドキュメントを表示できない場合でも、テキストストリームはそのままであり、適切なツールを使用して読み取ることができる場合があります。技術的に自信のあるユーザーの場合、(PDF ビューアではなく) テキストエディターで PDF を開くと、ファイルの生データに埋め込まれた読み取り可能なテキストコンテンツが表示されます。バイナリコンテンツの中から読み取り可能な文字列を探してください。

pdftotext (poppler パッケージの一部) のようなコマンドラインツールは、標準のビューアでは開かない PDF からテキストを抽出できます。破損したファイルに対して pdftotext を実行すると、視覚的なレンダリングが完全に失敗した場合でも、実質的なテキストコンテンツが回復されることがあります。このアプローチでは、コマンドラインツールを使いこなす必要がありますが、GUI ツールでは認識できないコンテンツにアクセスできます。

特殊なケース: スキャンされた破損した PDFs

スキャンされた PDF には、コンテンツがテキストではなく画像として保存されます。スキャンした PDF 内の画像データが破損している場合、テキスト抽出ツールは役に立ちません。抽出するテキストレイヤーがありません。復元可能なコンテンツは画像データそのものです。

スキャンされた PDF が部分的に破損している場合は、ファイル構造が壊れていても、画像オブジェクトを修復する修復ツールを使用して表示可能なドキュメントを作成できます。修復後、回復されたドキュメントに対して OCR を実行すると、画像コンテンツが検索可能なテキストに変換され、回復されたバージョンが元の検索不可能なスキャンよりも便利になります。

リカバリでできること、できないこと

破損した PDF からのテキストの回復は保証されません。成功率はダメージの種類と程度によって異なります。

コンテンツはそのままでの構造的な破損: 高い回復率 - コンテンツは存在しますが、ファイルはそれを正しく表示できないだけです
部分的なコンテンツの損傷: 部分的な回復 - 一部のページまたはセクションは回復可能ですが、その他は失われます
上書きされたストレージセクター: 回復力が低い、または回復不能 - 基礎となるデータが上書きされた場合、どのツールもそれを再作成できません
不完全なダウンロード (ファイルが切り詰められているだけ): 修復を試みるのではなく、新しいコピーを取得してください

今後の教訓: 重要な文書は、複数のコピーを別の場所に保管してください。別のドライブへのバックアップ、クラウドストレージへのコピー、自分への電子メール - これらのいずれかが、PDF 修復ツールを不要にする回復パスを提供します。最良の Repair PDF シナリオは、決して使用する必要がないものです。

PDF の修復をお試しください

インストールは必要ありません。ブラウザで直接動作します。

始める →