Others

您可以将扫描的 PDF 转换为 Excel 吗?

是的 - 但与转换数字创建的 PDF 相比,它需要额外的步骤。扫描的 PDF 是图像,而不是具有结构化数据的文档,因此转换过程必须首先识别图像中的文本和数字,然后才能将其放入电子表格单元格中。如果效果良好,可以节省大量时间。如果没有,则需要进行清理。

Can You Convert a Scanned PDF to Excel?

为什么扫描的 PDF 不同

数字创建的 PDF 将数据存储为实际字符 - 可以直接读取并放入单元格的数字。扫描的 PDF 将页面存储为照片。 “数字”是指扫描的表格中的像素恰好看起来像数字。要将它们提取到 Excel 中,软件必须查看这些像素,确定它们代表什么字符,然后找出表格的结构 - 哪些像素形成行,哪些像素形成列,以及单元格边界在哪里。

这个过程(光学字符识别与表格结构检测相结合)比简单的 PDF 到 Excel 转换更复杂,并且更容易出现错误。

WukongPDF

尝试 PDF 转 Excel

无需安装。直接在您的浏览器中工作。

立即开始 →

影响转换质量的因素

扫描质量是最重要的因素。在 200+ DPI 下对清晰打印的表格进行干净、高对比度的扫描可以很好地转换 — OCR 可以准确读取字符并且可以识别表格结构。低分辨率扫描、褪色的文档、倾斜的页面或任何单元格中的手写数字都会产生明显更差的结果。

表结构的复杂性也很重要。具有清晰边框和一致行高的简单网格比具有合并单元格、跨越标题、嵌套子表或不同高度的行的复杂表格更可靠地进行转换。更简单的结构意味着转换软件必须做出的决策更少,这些决策出错的机会也更少。

如何做

WukongPDF 的 PDF 到 Excel 工具直接处理扫描的 PDF — OCR 步骤作为转换的一部分自动运行。上传扫描的 PDF,选择 Excel 作为输出格式,然后下载。对于结构良好的表的干净扫描,输出通常只需最少的清理即可使用。打开 Excel 文件,检查数据,更正任何 OCR 错误(误读字符、合并或拆分单元格),然后电子表格就可以使用了。

Adobe Acrobat Pro 具有特别强大的扫描 PDF 到 Excel 转换功能,具有比大多数免费工具更好的表格检测功能。如果您有权访问它并且文档很复杂,那么即使您在其他地方进行清理,也值得将其用于初始转换。

转换后要检查的内容

切勿相信未经审查的扫描 PDF 转换,尤其是对于数字数据。 OCR 通常会混淆某些字符对:0 和 O、1 和 l、5 和 S、8 和 B。如果财务表中的某些零被读作字母 O,则会导致公式损坏和总计不正确。在将数据用于任何重要的事情之前,根据原始扫描抽查关键数据。

检查列对齐:当原始表格的间距不规则或合并单元格时,转换有时会将数据放置在错误的列中。逐页比较 Excel 输出的结构与原始扫描结果,而不仅仅是抽查各个值。

当手动输入更快时

对于非常短的表(低于 20 行)或结构复杂且转换效果不佳的表,手动数据输入有时比转换加清理更快。一个 10 行 5 列的表格大约需要 3 分钟来输入;如果转换产生的结果需要进行重大修正,那么您比直接输入花费了更多的时间。

对于长表(数十或数百行,其中手动输入需要花费数小时),转换方法的回报最为明显。对于这些,即使是不完美的清理转换也几乎总是比从头开始更快。

WukongPDF

尝试 PDF 转 Excel

无需安装。直接在您的浏览器中工作。

立即开始 →