Others

您可以将 PDF 转换为 HTML 吗?

将 PDF 转换为 HTML 在技术上是可行的,但结果会有很大差异,具体取决于 PDF 包含的内容以及您打算对 HTML 执行的操作。为了从简单文档中提取可读文本,转换效果很好。为了将复杂的布局保留为网页,输出通常需要进行大量清理才能使用。

Can You Convert PDF to HTML?

为什么 PDF 到 HTML 比其他转换更复杂

PDF 使用固定定位 - 每个元素在页面上都有一个以坐标定义的精确位置。 HTML 使用流布局——元素根据规则堆叠和换行。两者之间的转换意味着采用针对特定页面大小和特定元素位置设计的内容,并将其转换为适合任何屏幕宽度的内容。转换器必须决定是重现固定布局(使用绝对 CSS 定位,看起来相同但破坏响应能力)还是提取语义结构(这会失去布局保真度,但作为网页效果更好)。

大多数 PDF 到 HTML 转换器默认按照阅读顺序提取文本并应用基本格式。结果可用于在网络上发布文本内容,但看起来与原始 PDF 布局完全不同。

WukongPDF

尝试 PDF 到 Word

无需安装。直接在您的浏览器中工作。

立即开始 →

处理转换的工具

Adobe Acrobat Pro 通过文件 → 导出到 → HTML 网页导出为 HTML。它会生成一个包含 HTML 文件和任何图形的单独图像文件的文件夹。输出保留了一些布局结构,但严重依赖于绝对定位和不适应移动屏幕的固定宽度。

对于不使用 Acrobat 的以文本为中心的转换,首先使用 PDF 转换器 将 PDF 转换为 Word,然后将 Word 文档另存为已过滤的 HTML,这是一种实用的解决方法。 Word 的 HTML 输出并不干净——它包含大量专有标记——但它是可读和可编辑的。在代码编辑器中打开该 HTML 并手动清理标记,或将文本内容直接粘贴到 CMS 中,通常比任何直接 PDF 到 HTML 路径更实用。

Pdf2htmlEX 是一个开源工具,它通过使用 CSS 仔细地重新创建 PDF 布局来生成高保真 HTML 输出。视觉准确性令人印象深刻,但它生成的 HTML 很复杂并且不适合编辑 - 它适合在网页中嵌入类似 PDF 的视图,而不是创建可编辑的网页内容。

当目标是网络发布时

如果最终目标是将 PDF 内容发布为适当的网页(搜索引擎可以索引的内容、可在移动设备上运行的内容、适合您网站设计的内容),则直接 PDF 到 HTML 的转换几乎永远不会在没有大量手动工作的情况下产生可用的结果。更可靠的路径是从 PDF 中提取文本内容,将其粘贴到您的 CMS 或网站编辑器中,然后使用网站的现有样式和模板手动应用格式。

对于手动重新格式化过于耗时的长文档,首先转换为 Word 会为您提供更清晰的中间格式,比原始 PDF 文本更容易复制粘贴。 Word 转换可处理段落检测、标题识别和基本格式设置,因此您可以在发布前花费更少的时间重组内容。

在网页中嵌入 PDF 内容而不进行转换

如果您的目标是在网站上显示 PDF 而不是将其转换为 HTML,则嵌入通常比转换更好。托管 PDF 文件并链接到它,或者使用 PDF 查看器(如 PDF.js)将其嵌入 iframe 中,可以准确保留原始格式,并且根本不需要转换。访问者可以看到 PDF 的设计效果,并且您可以避免所有转换质量问题。代价是嵌入的 PDF 不会像原生 HTML 内容一样被搜索引擎索引。

WukongPDF

尝试 PDF 到 Word

无需安装。直接在您的浏览器中工作。

立即开始 →