OCR 与手动重新输入：当每个都有意义时

您有一份扫描文档，并且需要其中的文本。有两种选择：通过 OCR 工具运行它，或者自己重新输入。人们的本能通常是直接使用 OCR——它更快、更自动化，这听起来显然是正确的选择。但 OCR 并不总是正确的答案，手动重新输入也不总是错误的答案。最佳选择取决于文档的外观以及您需要对输出执行的操作。

OCR vs Manual Retyping: When Each One Makes Sense

OCR 的实际用途及其不足之处

OCR（光学字符识别）逐像素分析图像，识别与已知字符模式匹配的形状，并将其转换为文本。现代 OCR 确实令人印象深刻 - 它可以处理多种字体、混合语言以及合理的扫描质量和高精度。 www.wukongpdf.com 上的 WukongPDF 的 OCR PDF 工具可处理扫描文档并返回可搜索、可选择的文本，无需手动输入。

但 OCR 准确率并非 100%，与完美的差距取决于用例。准确率达到 99% 的文档听起来不错，直到您意识到在 1,000 字的文档中，这仍然有 10 个错误 — — 除非您根据原始内容校对整个输出，否则您可能无法发现这些错误。对于法律合同、财务报告或任何精度至关重要的文件，未经审查，这些错误是不可接受的。

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

当 OCR 明显获胜时

数量是 OCR 没有竞争对手的地方。如果您有十页、五十页或五百页需要数字化，重新打字根本不是一个可行的选择。无论长度如何，OCR 都可以在几秒钟内处理页面。时间优势如此之大，即使考虑到完整的校对通过，OCR仍然以大幅优势获胜。

OCR 在以下情况下也有意义：

主要目标是可搜索性而不是完美的准确性——例如，使旧文档的档案可以通过关键字找到
文档干净、光线充足，并以标准字体输入 — OCR 准确度最高的条件
您需要保留文档结构——标题、段落、栏——而不仅仅是原始文本

何时手动重新输入实际上更好

与 OCR 相比，重新输入有一个决定性的优势：输出正是您输入的内容。没有识别错误，没有字符替换，也没有脏扫描产生的乱码。如果您需要保证准确性并且文档很短，则重新输入通常比运行 OCR 然后校对结果更快。

在以下情况下，手动重新输入往往会获胜：

该文档很短（一页或更少），您只需要其中的特定信息，而不是全文
扫描质量很差——手写笔记、褪色的墨水、不寻常的字体或沉重的背景噪音都会使大多数 OCR 引擎失效，并产生比重新打字需要更多校正的输出
内容主要是数字、代码或标识符，其中单个错误字符会产生严重错误 - 序列号、帐号、参考代码
您正在重新格式化 - 为不同的目的重组内容，而不仅仅是逐字提取它

大多数人没有想到的方法：OCR 然后抽查

对于准确性至关重要的中等长度文档，最有效的工作流程通常是组合：运行 OCR 来获取大部分文本，然后抽查最有可能包含错误的部分，而不是校对所有内容。

OCR 错误集中在可预测的位置：扫描稍微模糊的区域、格式不寻常的部分、文本中混合有数字的段落，以及扫描可能稍微倾斜的页面边缘附近的任何内容。仔细检查这些区域并浏览其余部分。这种混合方法可以让您获得 OCR 的大部分速度优势，并且比未经检查地接受原始输出具有更高的准确性。

对于大多数处理扫描文档的人来说，OCR 可以很好地处理这项工作，因此手动重新打字很少成为更好的选择。例外情况是文档较短、准确性要求较高或质量较差，在这些情况下，值得认识到“更快”的文档是最重要的。一旦考虑到审核时间，自动化选项实际上并不总是更快。

一句话的决定

对于超过页面的任何内容、以可搜索性为目标的任何内容或需要干净扫描的任何内容，请使用 OCR PDF。当文档较短、扫描效果不佳或您需要特定值的零误差精度时，请重新输入。如有疑问，请先尝试 OCR — 如果输出看起来干净，则完成；如果需要大量修正，请切换方法。

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →