您从 PDF 复制一个段落并将其粘贴到其他地方,每行都以硬回车结束 - 文本不会重排,它只是在页面上该行恰好结束的地方中断。这是最常见的 PDF 烦恼之一,它有一个特定的技术原因,可以解释它发生的原因以及您可以采取的措施。

为什么会发生这种情况:PDF 如何存储文本
PDF 不像 Word 或 Google 文档那样将文本存储为段落。相反,它存储单个字符或一小群字符,每个字符在页面上都有一个特定的位置 - X 和 Y 坐标将每段文本准确地放置在它应该出现的位置。 PDF 渲染器绘制这些定位的片段以产生您看到的视觉结果。
当您复制文本时,PDF 查看器必须从这些定位的片段重建文本流。它按顺序读取字符,并且必须根据垂直位置的变化猜测一行的结束位置和另一行的开始位置。当它检测到换行符(Y 位置的跳转)时,它会插入换行符。结果是 PDF 中的每条视觉线都成为粘贴文本中的单独行。
这是 PDF 文本提取工作原理的基本特征,而不是任何特定查看器中的错误。一些 PDF 包含结构信息,可帮助查看者区分软换行(段落内)和硬段落分隔符 - 但许多 PDF 不包含,尤其是较旧的 PDF 或从某些软件导出的文件。
尝试编辑PDF
无需安装。直接在您的浏览器中工作。
当情况更糟时:多列布局
多列布局使这个问题变得更糟。当文本在两列或三列中流动时,PDF 查看器以从左到右、从上到下的顺序提取文本,通常会交错来自不同列的文本 - 左列中的一行,然后是右列中的一行,然后是左列中的下一行。所得糊状物是混乱的并且需要大量的手动清理。
两栏格式的学术论文因此而臭名昭著。从研究论文 PDF 复制段落通常会产生两列交替的片段,而不是干净的单列文本块。
少量文本的快速修复
对于一些段落,最快的修复方法是粘贴后在文本编辑器或文字处理器中进行查找和替换操作。您想要替换单换行符(段落中不需要的换行符),同时保留双换行符(分隔真正的段落)。
在 Microsoft Word 中,使用查找和查找用通配符替换:替换后面没有另一个段落标记的单段落标记 (^p),将其替换为空格。在纯文本编辑器中,大多数查找和替换工具都允许您使用正则表达式来执行相同的操作。这可以在几秒钟内将 30 行断线的粘贴减少为正确回流的段落。
处理大量文本的更好方法
对于从 PDF 中提取大量文本,复制粘贴是错误的工具。使用 PDF Converter 将 PDF 转换为 Word 会产生更好的结果,因为转换过程尝试重建文档结构(识别段落、标题和布局),而不仅仅是提取原始字符位置。
转换后的 Word 文档仍然需要检查,特别是对于复杂的布局,但段落结构通常是完整的,并且您不需要处理整个文档中的逐行中断。
特定于查看器的改进
一些 PDF 查看器比其他查看器更好地处理文本提取。 Adobe Acrobat Reader 具有“带格式复制”功能与基本副本相比,该选项可以更好地重建段落。如果您定期提取文本,则在同一个 PDF 上测试不同的查看器有时会发现可以产生更清晰输出的查看器。
最终,文本提取的质量取决于 PDF 的创建方式。从现代文字处理程序导出的结构良好的 PDF 具有适当的段落标记,可以干净地提取。打印到文件、从图像转换或从未嵌入结构信息的软件导出的 PDF 将始终在副本上产生损坏的文本。对于这些文件,转换为 Word 是可靠的途径。
尝试编辑PDF
无需安装。直接在您的浏览器中工作。
