PDF を HTML に変換することは技術的には可能ですが、結果は PDF の内容と HTML で何を行うつもりかによって大きく異なります。単純な文書から読みやすいテキストを抽出する場合、変換はうまく機能します。複雑なレイアウトを Web ページとして保存するには、通常、出力を使用できるようになる前に大幅なクリーンアップが必要になります。

PDF から HTML への変換が他の変換よりも複雑な理由
PDF は固定位置を使用します。すべての要素は、ページ上の座標で定義された正確な位置を持ちます。 HTML ではフロー レイアウトが使用されます。要素はルールに基づいて積み重ねられ、折り返されます。この 2 つの間の変換とは、特定の要素位置を備えた特定のページ サイズ向けに設計されたコンテンツを、任意の画面幅に適応するものに変換することを意味します。コンバーターは、固定レイアウトを再現するか (絶対 CSS 配置を使用します。これは同一に見えますが、応答性が損なわれます)、セマンティック構造を抽出するか (レイアウトの忠実度は失われますが、Web ページとしてはより適切に機能します) を決定する必要があります。
ほとんどの PDF から HTML へのコンバーターは、デフォルトで、基本的な書式設定が適用された読み取り順にテキストを抽出します。結果は、Web 上でテキスト コンテンツを公開するために使用できますが、元の PDF レイアウトとはまったく異なります。
PDF を Word に変換してみる
インストールは必要ありません。ブラウザで直接動作します。
変換を処理するツール
Adobe Acrobat Pro は、「ファイル」→「エクスポート先」→「HTML Web ページ」を選択して HTML にエクスポートします。 HTML ファイルとグラフィック用の個別の画像ファイルを含むフォルダーが作成されます。出力は一部のレイアウト構造を保持しますが、絶対位置と固定幅に大きく依存しており、モバイル画面には適応しません。
Acrobat を使用せずにテキストに重点を置いた変換を行う場合、最初に PDF Converter を使用して PDF を Word に変換し、次に Word 文書をフィルター処理された HTML として保存することが実用的な回避策です。 Word の HTML 出力はきれいではありません (独自のマークアップが多く含まれています) が、読み取りと編集は可能です。コード エディターで HTML を開いてマークアップを手動でクリーンアップするか、テキスト コンテンツを CMS に直接貼り付ける方が、PDF から HTML への直接ルートよりも実用的であることがよくあります。
Pdf2htmlEX は、CSS を使用して PDF レイアウトを注意深く再作成することにより、忠実度の高い HTML 出力を生成するオープンソース ツールです。視覚的な正確さは印象的ですが、生成される HTML は複雑で編集向けではありません。編集可能な Web コンテンツを作成するのではなく、PDF のようなビューを Web ページに埋め込むのに適しています。
目標が Web パブリッシングの場合
最終目標が、PDF コンテンツを適切な Web ページ (検索エンジンでインデックス付けできるもの、モバイルで動作するもの、サイトのデザインに適合するもの) として公開することである場合、PDF から HTML への直接変換では、大幅な手作業がなければ、使用可能な結果が得られることはほとんどありません。より信頼性の高い方法は、PDF からテキスト コンテンツを抽出し、それを CMS またはサイト エディターに貼り付け、サイトの既存のスタイルとテンプレートを使用して書式設定を手動で適用することです。
手動で再フォーマットするのに時間がかかりすぎる長い文書の場合は、最初に Word に変換すると、生の PDF テキストよりも簡単にコピーアンドペーストできるクリーンな中間フォーマットが得られます。 Word 変換では、段落検出、見出しの識別、および基本的な書式設定が処理されるため、発行前にコンテンツを再構築する時間が短縮されます。
変換せずにPDFコンテンツをWebページに埋め込む
PDF を HTML に変換するのではなく、Web サイトに表示することが目的の場合は、多くの場合、変換よりも埋め込みの方が適しています。 PDF ファイルをホストしてリンクするか、PDF.js などの PDF ビューアを使用して iframe に埋め込むと、元の書式が正確に保持され、変換はまったく必要ありません。訪問者は PDF を設計どおりに見ることができ、変換品質の問題をすべて回避できます。その代償として、埋め込まれた PDF はネイティブ HTML コンテンツほどには検索エンジンによってインデックス付けされません。
PDF を Word に変換してみる
インストールは必要ありません。ブラウザで直接動作します。
