Google 云端硬盘包含内置 OCR,当您使用 Google 文档打开扫描的 PDF 时,该功能会自动运行。它是免费的,不需要额外的软件,并且可以很好地处理大多数常见文档。虽然存在一些值得了解的限制,但对于简单的扫描文本,它可以可靠地处理工作。

如何做
将扫描的 PDF 上传到 Google 云端硬盘。上传后,右键单击该文件并选择打开方式 → Google 文档。云端硬盘在转换过程中自动运行 OCR,并将结果作为可编辑的 Google 文档文档打开。原始 PDF 在云端硬盘中保持不变 - Google 在其旁边创建了一个新的文档文件。
转换后的文档在上部包含已识别的文本,下面是每个原始页面的图像。这种双层方法可以让您看到 Google 识别的内容与原始页面实际显示的内容,这对于通过并排比较两者来捕获 OCR 错误非常有用。
尝试 PDF OCR
无需安装。直接在您的浏览器中工作。
它的优点
对于常见语言的标准印刷文本的清晰、高对比度扫描,Google Drive 的 OCR 是准确的。以 200 DPI 或更高的分辨率扫描的专业打印文档通常可以很少出现转换错误。它可以处理多种语言,并且通常可以识别混合语言文档,而无需任何特殊配置。
输出可以立即在 Google 文档中进行编辑,如果您需要更改文本,这会很方便。如果下游需要,您还可以从文档导出回 PDF(文件 → 下载 → PDF 文档)或 Word 格式。
不足之处
Google Drive 的 OCR 不保留原始文档布局。表格以纯文本形式显示,多列格式被线性化,任何复杂的格式都会丢失。识别的文本是纯段落——从视觉上看,与源文档完全不同。
对于需要保留布局的文档(需要重新分发的表单、应保留其原始设计的报告),Google Drive OCR 会为您提供文本内容,但您需要手动重新应用格式。对于只需要文本内容来搜索、编辑或提取数据的文档,缺乏格式并不重要。
低质量的扫描、褪色的文本、手写和不寻常的字体会产生明显更多的错误。 CJK 字符(中文、日文、韩文)在 Google 的 OCR 引擎中普遍得到改进,但对于复杂文本的准确性仍然落后于拉丁文字。
当专用 OCR 工具更好时
如果您需要保持 PDF 格式的 OCR 输出(可搜索的 PDF 而不是 Google 文档),Google Drive 不是合适的工具。它转换为文档文件,而不是返回为带有文本层的 PDF。为此,WukongPDF 的 OCR PDF 工具处理扫描并返回 PDF,其中文本可供选择和搜索,同时保留原始文档的视觉外观。这通常是人们说他们想要“OCR a PDF”时的意思。 — 他们想要回相同的文档,只是带有可识别的文本而不是图像。
对于许多文档的批量 OCR,或者对于困难内容的准确性很重要的文档,ABBYY FineReader 等专用 OCR 软件可以提供比 Google Drive 更好的结果,但代价是成为付费产品。对于干净扫描文档的日常免费 OCR,Google Drive 处理得足够好,以至于大多数人不需要其他任何东西。
尝试 PDF OCR
无需安装。直接在您的浏览器中工作。
