您可以在 Google 云端硬盘中 OCR PDF 吗？

Google 云端硬盘包含内置 OCR，当您使用 Google 文档打开扫描的 PDF 时，该功能会自动运行。它是免费的，不需要额外的软件，并且可以很好地处理大多数常见文档。虽然存在一些值得了解的限制，但对于简单的扫描文本，它可以可靠地处理工作。

如何做

将扫描的 PDF 上传到 Google 云端硬盘。上传后，右键单击该文件并选择打开方式 → Google 文档。云端硬盘在转换过程中自动运行 OCR，并将结果作为可编辑的 Google 文档文档打开。原始 PDF 在云端硬盘中保持不变 - Google 在其旁边创建了一个新的文档文件。

转换后的文档在上部包含已识别的文本，下面是每个原始页面的图像。这种双层方法可以让您看到 Google 识别的内容与原始页面实际显示的内容，这对于通过并排比较两者来捕获 OCR 错误非常有用。

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

它的优点

对于常见语言的标准印刷文本的清晰、高对比度扫描，Google Drive 的 OCR 是准确的。以 200 DPI 或更高的分辨率扫描的专业打印文档通常可以很少出现转换错误。它可以处理多种语言，并且通常可以识别混合语言文档，而无需任何特殊配置。

输出可以立即在 Google 文档中进行编辑，如果您需要更改文本，这会很方便。如果下游需要，您还可以从文档导出回 PDF（文件 → 下载 → PDF 文档）或 Word 格式。

不足之处

Google Drive 的 OCR 不保留原始文档布局。表格以纯文本形式显示，多列格式被线性化，任何复杂的格式都会丢失。识别的文本是纯段落——从视觉上看，与源文档完全不同。

对于需要保留布局的文档（需要重新分发的表单、应保留其原始设计的报告），Google Drive OCR 会为您提供文本内容，但您需要手动重新应用格式。对于只需要文本内容来搜索、编辑或提取数据的文档，缺乏格式并不重要。

低质量的扫描、褪色的文本、手写和不寻常的字体会产生明显更多的错误。 CJK 字符（中文、日文、韩文）在 Google 的 OCR 引擎中普遍得到改进，但对于复杂文本的准确性仍然落后于拉丁文字。

当专用 OCR 工具更好时

如果您需要保持 PDF 格式的 OCR 输出（可搜索的 PDF 而不是 Google 文档），Google Drive 不是合适的工具。它转换为文档文件，而不是返回为带有文本层的 PDF。为此，WukongPDF 的 OCR PDF 工具处理扫描并返回 PDF，其中文本可供选择和搜索，同时保留原始文档的视觉外观。这通常是人们说他们想要“OCR a PDF”时的意思。 — 他们想要回相同的文档，只是带有可识别的文本而不是图像。

对于许多文档的批量 OCR，或者对于困难内容的准确性很重要的文档，ABBYY FineReader 等专用 OCR 软件可以提供比 Google Drive 更好的结果，但代价是成为付费产品。对于干净扫描文档的日常免费 OCR，Google Drive 处理得足够好，以至于大多数人不需要其他任何东西。

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →