Tips & Tricks

如何将表格从 PDF 复制到 Excel

带有数据表的 PDF 看起来很容易复制到 Excel 中 - 直到您尝试它并发现数据在单列中杂乱无章,或者在错误的位置换行,或者合并的单元格与原始表格结构不对应。将表格数据从 PDF 干净地获取到 Excel 需要了解哪种方法适用于您的特定 PDF 类型。

How to Copy a Table From a PDF to Excel

为什么复制粘贴通常会产生混乱的结果

PDF 将表格内容存储为定位文本 - 放置在页面上特定坐标处的单个文本元素,而不是作为具有行和列的结构化表格数据。当您从 PDF 复制和粘贴时,您将按照文件内部结构中出现的顺序复制文本,这可能与视觉阅读顺序不匹配。具有十行的三列表可以粘贴为三十行文本,没有列分隔。

一些 PDF 查看器在粘贴期间比其他查看器更好地处理表格检测。 Adobe Acrobat Reader 的副本往往比基于浏览器的查看器产生更好的结果。但对于复杂的表,如果没有大量的手动清理,复制粘贴很少能干净到足以使用。

WukongPDF

尝试 PDF 转 Excel

无需安装。直接在您的浏览器中工作。

立即开始 →

最佳方法:直接将PDF转换为Excel

专用的 PDF 到 Excel 转换器分析 PDF 的布局,识别表格结构,并将内容映射到电子表格单元格中。结果是一个 Excel 文件,其中表格行和列对应于原始 PDF 布局 - 比复制粘贴干净得多。

www.wukongpdf.com 上的 WukongPDF 的 PDF 到 Excel 工具可以处理此问题:上传 PDF,下载 Excel 文件。对于具有清晰表格结构的数字 PDF,转换通常足够干净,只需最少的校正即可使用。对于具有合并单元格、嵌套标题或不规则结构的复杂表格,仍然需要一些手动清理,但比复制粘贴要少得多。

扫描的PDFs:先进行OCR,然后转换

如果包含表格的 PDF 是扫描件(页面图像而不是数字文档),则复制粘贴根本不起作用(没有要复制的文本),直接转换会产生较差的结果。扫描的表格首先需要进行OCR处理以提取真实文本,然后需要将文本解释为表格结构。

某些 PDF 到 Excel 转换器在检测到扫描文档时会自动应用 OCR。其他要求您先运行 OCR,然后再进行转换。在尝试转换之前检查扫描质量 - 具有清晰行和列边界的表格比具有模糊线条或不规则间距的表格转换得更好。

Adobe Acrobat Pro:导出到 Excel

Adobe Acrobat Pro 具有内置的导出到 Excel 功能(文件 > 导出到 > 电子表格 > Microsoft Excel 工作簿)。这是可用的最准确的表格提取工具之一 - Acrobat 的表格检测算法非常成熟,可以处理多种表格类型。

导出将创建一个 Excel 文件,其中每个页面上的每个表格都放置在单独的工作表或部分中。复杂的多页表格、具有重复标题的表格以及具有合并单元格的表格都可以得到很好的处理。如果您有 Acrobat Pro,这是用于表格提取的最高质量选项。

当复制粘贴是唯一的选择时 - 如何清理

如果转换工具不可用并且您需要使用复制粘贴,则以下步骤可以最大限度地减少清理工作:

  • 在 Adob​​e Reader 中,选择表格文本并使用“编辑”>“如果可用的话,使用格式化进行复制 - 这比普通复制保留了更多的表格结构
  • 首先粘贴到文本编辑器(记事本、TextEdit)中,而不是直接粘贴到 Excel 中 - 这可以让您看到原始结构,而无需 Excel 的单元格格式使事情变得复杂
  • 从文本编辑器复制文本并使用“选择性粘贴”> 将文本粘贴到 Excel 中。文本
  • 使用 Excel 的文本分列功能(数据 > 文本分列)根据分隔符或固定宽度将粘贴的数据拆分为单独的列

当没有工具产生干净的结果时

有些表格对于自动化工具来说确实很困难——表格中的嵌套表格、具有复杂合并单元格模式的表格、具有重复标题的跨多个页面的表格,或者数据在 PDF 中没有正式表格标记的可视化结构的表格。对于这些,最实用的方法可能是使用 PDF 作为参考手动数据输入。对于小型表,这比尝试强制自动化工具产生干净的结果然后手动修复所有错误花费的时间更少。

WukongPDF

尝试 PDF 转 Excel

无需安装。直接在您的浏览器中工作。

立即开始 →