OCR 代表光学字符识别。这项技术可以从图像(包括扫描文档、页面照片和纯图像 PDF)中读取文本,并将所看到的内容转换为计算机可以处理的实际文本数据。如果您曾经扫描过文档并想知道为什么无法搜索或复制文本,OCR 就是解决方案。

OCR 解决的问题
当您扫描文档时,扫描仪会捕获页面的照片。对于计算机来说,这张照片只是像素——排列在网格上的彩色点。从计算机的角度来看,您在图像中看到的文字并不以文本形式存在。它无法搜索、复制、翻译或大声朗读它们。
OCR 弥补了这一差距。它分析图像中的像素模式,识别与字母和数字相对应的形状,并将这些形状转换为实际的文本字符。经过 OCR PDF 处理后,文档有两层:原始图像(看起来仍然一模一样)和计算机可以读取、搜索和处理的隐藏文本层。
尝试 PDF OCR
无需安装。直接在您的浏览器中工作。
OCR 实际工作原理
现代 OCR 系统使用经过数百万文档图像训练的机器学习模型。当处理一个页面时,系统会经历几个阶段:
- 图像预处理:图像被清理——如果倾斜,则将其拉直,增强对比度,减少噪点。更清晰的图像可以产生更准确的识别。
- 布局分析:系统识别页面的结构——文本块在哪里、图像在哪里、阅读顺序、列边界、表格单元格。
- 字符识别:模型分析每个字符形状并分配最可能的字母、数字或符号。它考虑上下文——“他”。更有可能是“the” ——提高准确性。
- 文本层创建:将识别的字符组装成单词和句子,定位为与原始图像对齐,并作为可搜索文本层嵌入到PDF中。
影响 OCR 准确性的因素
OCR 准确度根据源图像的质量和所识别的内容的不同而有很大差异:
- 扫描分辨率:更高的 DPI 可产生更清晰的字符边缘和更好的识别效果。 300 DPI 是可靠 OCR 的建议最低设置。低于 150 DPI 的图像通常会产生严重错误。
- 字体类型:常见字体(Times、Arial、Helvetica)中的标准印刷字体可高精度识别。装饰字体、不寻常的字体和非常小的文本会产生更多错误。
- 文档状况:纸张泛黄、墨水褪色、污迹、扫描倾斜和阴影都会降低识别质量。干净、直接、高对比度的扫描可产生最佳结果。
- 语言:常用语言(英语、西班牙语、法语、德语、中文、日语)训练数据丰富,准确率高。不太常见的语言和脚本可能会有更多错误。
- 手写:OCR 打印文本非常准确。手写识别是一个不同的、更困难的问题——准确度因手写风格和所使用的具体模型而异。
结果是什么样的
OCR 后,PDF 看起来与之前相同 - 原始扫描图像没有变化。这种差异肉眼看不见,但在功能上却很显着。该文档现在有一个与图像对齐的隐藏文本层。当您搜索单词时,查看者会在文本图层中找到它并在图像中突出显示它。当您选择并复制文本时,您是从文本图层进行复制。当屏幕阅读器播报内容时,它会读取文本层。
图像层和文本层是分开的——OCR 不会以任何方式改变原始扫描件。如果OCR出现错误,图像仍然显示正确的原文;只有隐藏文本层包含错误。
如何将 OCR 应用于 PDF
www.wukongpdf.com 上的 WukongPDF 的 OCR PDF 工具可以处理此问题,无需桌面软件 - 上传扫描的 PDF,选择文档语言以提高准确性,处理并下载可搜索结果。对于标准文档,该操作通常需要 10-30 秒。
Adobe Acrobat Pro 具有内置 OCR 功能(工具 > 增强扫描 > 识别文本)以及用于控制识别质量和处理多页文档的附加选项。对于处理大量扫描文档的组织,Acrobat 的批量 OCR 功能可自动处理整个文件夹的文件。
尝试 PDF OCR
无需安装。直接在您的浏览器中工作。
