Tips & Tricks

如何将 PDF 转换为 CSV 文件

将 PDF 转换为 CSV 会将文档中的表格数据提取到电子表格应用程序和数据库可以直接读取的逗号分隔值文件中。当您有财务报表、销售报告、库存清单或需要在 Excel、Google Sheets 或数据库中使用的任何其他数据密集型 PDF 时,它非常有用。没有直接的 PDF 到 CSV 工具可以在所有情况下可靠地工作 - 最佳方法取决于 PDF 中的内容。

How to Convert a PDF to a CSV File

为什么没有简单的一键转换

CSV 是一种结构化格式 — 数据按行和列组织,并具有清晰的分隔符。 PDF 是一种视觉格式 - 内容位于页面上,没有固有结构。它们之间的转换需要推断哪些文本属于哪列和行,这是一个布局解释问题而不是简单的格式转换。

PDF 到 Excel 的转换处理此解释步骤 - 它分析表结构并将内容映射到单元格。 CSV 是第二步:数据存入 Excel 后,只需一个菜单选项即可另存为 CSV。这种两步方法(PDF → Excel → CSV)比尝试直接转至 CSV 更可靠。

WukongPDF

尝试 PDF 转 Excel

无需安装。直接在您的浏览器中工作。

立即开始 →

推荐的工作流程:PDF 到 Excel 到 CSV

步骤 1:使用 www.wukongpdf.com 上的 WukongPDF 的 PDF to Excel 工具将 PDF 转换为 Excel。上传 PDF,下载 .xlsx 文件。这处理了困难的部分——解释表结构并将数据映射到单元格。

步骤 2:打开 Excel 文件并查看数据。检查列是否正确分隔,标题是否位于正确的行,以及单元格之间没有错误合并的数据。在继续之前解决任何明显的问题。

步骤 3:另存为 CSV。在 Excel 中,转到“文件”>“另存为,将文件类型更改为 CSV(逗号分隔),然后保存。 Excel 将警告某些功能与 CSV 不兼容 - 单击“确定”。结果是一个纯文本文件,其中任何数据库或电子表格应用程序都可以导入用逗号分隔值。

扫描的PDFs:首先进行OCR

如果 PDF 包含扫描表格(页面图像而不是数字文本),则在没有 OCR 的情况下,PDF 到 Excel 的转换将无法进行。转换器需要实际的文本来处理,而不是文本的像素图像。

首先通过 OCR 工具运行 Scanned PDF 以添加文本图层,然后尝试在 OCR 处理版本上将 PDF 转换为 Excel。准确性取决于扫描质量——对格式良好的表格进行干净、高分辨率的扫描比质量差或倾斜的扫描产生更好的结果。 OCR 和转换后,请在保存为 CSV 之前仔细检查 Excel 输出,因为数字中的 OCR 错误特别有可能导致下游处理出现问题。

使用 Adob​​e Acrobat Pro 处理复杂表格

对于复杂的表格(每页多个表格、跨页表格、具有合并单元格或不规则结构的表格),Adobe Acrobat Pro 的导出到电子表格功能(文件 > 导出到 > 电子表格 > Microsoft Excel 工作簿)通常会比基于浏览器的工具产生更清晰的结果。 Acrobat 的表格检测算法很成熟,可以更好地处理边缘情况。

从 Acrobat 导出到 Excel 后,CSV 转换是相同的:检查数据、清理任何问题并另存为 CSV。对于简单的表格来说,没有必要使用 Acrobat Pro,但值得了解的是,对于基于浏览器的工具损坏的表格,存在该选项。

复制粘贴小型、简单的表格

对于小表(十行、三列),从 PDF 手动复制粘贴到 Excel 可能比配置转换工具和排除故障更快。在 PDF 查看器中选择表格文本,复制并粘贴到 Excel 中,然后使用“数据”>如果需要,文本到列可将粘贴的内容拆分为单独的列。

对于较大的表或具有复杂结构的表,复制粘贴方法很快就会失效。对于超过 50 行的任何内容,适当的转换工具节省的时间(即使随后进行一些手动清理)也超过了复制粘贴和更正错误所花费的时间。

WukongPDF

尝试 PDF 转 Excel

无需安装。直接在您的浏览器中工作。

立即开始 →