从 PDF 中提取文本(作为纯文本文件或可编辑文档)是最常用的 PDF 操作之一。最有效的方法取决于 PDF 是否具有真实文本层或扫描图像,以及您计划如何处理提取的文本。

最简单的方法:复制粘贴
对于具有可选文本的 PDF,复制并粘贴到文本编辑器或文字处理器通常是最快的方法。打开 PDF,按 Ctrl+A 全选,按 Ctrl+C 复制,然后按 Ctrl+V 粘贴到记事本、文本编辑、Word 或任何需要文本的位置。这对于简短的文档或当您只需要快速获取内容而不关心保留结构时非常有效。
限制:复制粘贴不会保留格式,并且对于多列 PDF 或具有复杂布局的文档,文本通常会以错误的顺序出现 - 列交错,脚注出现在段落中间,页眉和页脚混合到正文中。对于简单的线性文档来说这不是问题。对于复杂的布局,它可能会使提取的文本难以使用。
尝试 PDF 到 Word
无需安装。直接在您的浏览器中工作。
转换为字以获得更好的结构
当文本提取需要保留段落、标题和基本结构时(以便您可以在文字处理器中编辑内容,而不仅仅是将其作为纯文本读取),转换为 Word 是比复制粘贴更好的路径。 PDF Converter 分析文档结构并尝试将段落、标题、列表和表格重建为正确的 Word 元素,而不是仅按阅读顺序转储所有文本。
Google 文档免费执行此操作:将 PDF 上传到云端硬盘,使用 Google 文档打开,文本会以合理保留的结构显示。为了更准确地转换复杂文档,专用的 PDF 到 Word 工具比 Google 的内置导入器更好地处理布局分析。
提取为纯文本 (.txt)
对于数据处理、向其他工具提供内容或仅存档不带任何格式的文本内容,纯 .txt 提取比 Word 转换更干净。 Adobe Acrobat(付费版本)可以通过文件 → 导出到 → 文本(纯文本)将 PDF 保存为纯文本。免费的 Acrobat Reader 无法保存为文本,但您可以复制所有内容并粘贴到记事本中,这实际上是相同的结果。
对于批量提取或编程使用,带有 pdfplumber 或 PyPDF2 库的 Python 会自动从多个 PDF 中提取文本,这在您需要处理许多文档时非常有用。像 pdftotext 这样的命令行工具(Poppler 实用程序包的一部分,可通过 Homebrew 在 Mac 上使用,通过包管理器在 Linux 上使用)可以高效地执行相同的操作,而无需编写任何代码。
扫描的PDFs:首先进行OCR
对于没有文本图层的扫描 PDF,上述方法都不起作用 - 没有文本可供提取。该页面存储为图像。 OCR 必须首先运行以识别字符并创建文本图层,然后才能进行任何提取。 WukongPDF的OCR PDF工具将文本图层添加到PDF;之后,上述复制粘贴或转换方法在 OCR 版本上可以正常工作。
Google Drive 的 Open with Google Docs 还会在扫描的 PDF 上自动运行 OCR - 这是更方便的免费选项之一,因为 OCR 和文本提取在一个步骤中完成,直接从扫描生成可编辑的文档。一如既往,准确性取决于扫描质量。
文本提取中丢失的内容
任何文本提取都会丢弃图像、图表、图表和视觉格式。表格可能以制表符分隔的文本形式出现,也可能会被打乱,具体取决于提取方法。数学符号、化学公式和专用符号通常无法正确提取 - 它们可能会被省略、替换为占位符字符或呈现为乱码序列。对于这些元素很重要的文档,转换为 Word 而不是纯文本可以保留更多的原始结构。
尝试 PDF 到 Word
无需安装。直接在您的浏览器中工作。
