什么是 OCR 以及它如何与 PDF 配合使用？

OCR 代表光学字符识别。这项技术可以从图像（包括扫描文档、页面照片和纯图像 PDF）中读取文本，并将所看到的内容转换为计算机可以处理的实际文本数据。如果您曾经扫描过文档并想知道为什么无法搜索或复制文本，OCR 就是解决方案。

OCR 解决的问题

当您扫描文档时，扫描仪会捕获页面的照片。对于计算机来说，这张照片只是像素——排列在网格上的彩色点。从计算机的角度来看，您在图像中看到的文字并不以文本形式存在。它无法搜索、复制、翻译或大声朗读它们。

OCR 弥补了这一差距。它分析图像中的像素模式，识别与字母和数字相对应的形状，并将这些形状转换为实际的文本字符。经过 OCR PDF 处理后，文档有两层：原始图像（看起来仍然一模一样）和计算机可以读取、搜索和处理的隐藏文本层。

无需安装。直接在您的浏览器中工作。

现代 OCR 系统使用经过数百万文档图像训练的机器学习模型。当处理一个页面时，系统会经历几个阶段：

OCR 准确度根据源图像的质量和所识别的内容的不同而有很大差异：

扫描分辨率：更高的 DPI 可产生更清晰的字符边缘和更好的识别效果。 300 DPI 是可靠 OCR 的建议最低设置。低于 150 DPI 的图像通常会产生严重错误。
字体类型：常见字体（Times、Arial、Helvetica）中的标准印刷字体可高精度识别。装饰字体、不寻常的字体和非常小的文本会产生更多错误。
文档状况：纸张泛黄、墨水褪色、污迹、扫描倾斜和阴影都会降低识别质量。干净、直接、高对比度的扫描可产生最佳结果。
语言：常用语言（英语、西班牙语、法语、德语、中文、日语）训练数据丰富，准确率高。不太常见的语言和脚本可能会有更多错误。
手写：OCR 打印文本非常准确。手写识别是一个不同的、更困难的问题——准确度因手写风格和所使用的具体模型而异。

OCR 后，PDF 看起来与之前相同 - 原始扫描图像没有变化。这种差异肉眼看不见，但在功能上却很显着。该文档现在有一个与图像对齐的隐藏文本层。当您搜索单词时，查看者会在文本图层中找到它并在图像中突出显示它。当您选择并复制文本时，您是从文本图层进行复制。当屏幕阅读器播报内容时，它会读取文本层。

图像层和文本层是分开的——OCR 不会以任何方式改变原始扫描件。如果OCR出现错误，图像仍然显示正确的原文；只有隐藏文本层包含错误。

www.wukongpdf.com 上的 WukongPDF 的 OCR PDF 工具可以处理此问题，无需桌面软件 - 上传扫描的 PDF，选择文档语言以提高准确性，处理并下载可搜索结果。对于标准文档，该操作通常需要 10-30 秒。

Adobe Acrobat Pro 具有内置 OCR 功能（工具 > 增强扫描 > 识别文本）以及用于控制识别质量和处理多页文档的附加选项。对于处理大量扫描文档的组织，Acrobat 的批量 OCR 功能可自动处理整个文件夹的文件。

无需安装。直接在您的浏览器中工作。