如何使扫描的 PDF 中的文本可选

扫描的 PDF 显示您可以用眼睛阅读的文本，但无法单击、选择、复制或搜索。这是因为“文本”是实际上是一张照片——像素排列得像字母。使文本可选择需要运行 OCR，它会读取图像并向文档添加真实的文本层。 OCR 后，PDF 看起来相同，但文本变得可复制、可搜索和可访问。

How to Make Text Selectable in a Scanned PDF

OCR 对扫描的 PDF 有何作用

OCR（光学字符识别）分析每个页面图像中的像素模式，识别与字母和数字相对应的形状，并创建一个与可见字符对齐的隐藏文本层。经过 OCR PDF 处理后，文档有两层：原始扫描图像（未更改，仍然可见）和下面的文本层，供查看者在您选择或搜索时使用。

文档的视觉外观不会改变 - OCR 之前和之后的扫描结果看起来相同。改变的是文档的功能：文本变得可以逐个字符选择，Ctrl+F 搜索有效，复制粘贴会生成真实文本而不是空文本，屏幕阅读器可以大声朗读内容。

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

使用WukongPDF的OCR工具

www.wukongpdf.com 的 WukongPDF 在浏览器中处理 OCR，无需安装软件。上传扫描的PDF，选择文档语言以获得更好的识别准确性，处理并下载可搜索的结果。转换后的文件是带有文本层的标准 PDF - 与每个 PDF 查看器兼容。

下载后立即测试：打开PDF，按Ctrl+F，搜索第一页可以看到的单词。如果找到了，OCR 就起作用了。尝试选择并复制一个句子 - 粘贴的文本应该与您看到的内容相符。如果未找到任何内容或复制的文本看起来有误，则 OCR 存在准确性问题，可能是由于扫描质量造成的。

Adobe Acrobat 的增强扫描

Adobe Acrobat Pro 和 Acrobat Standard 包含称为增强扫描的专用 OCR 功能。打开扫描的PDF，转到“工具”>“增强扫描>识别文本>在此文件中。设置文档语言并单击识别文本。 Acrobat 处理页面并添加文本图层。对于多页文档，Acrobat 在一次操作中处理所有页面。

Acrobat 还提供“使可搜索”功能与完整 OCR 略有不同的选项 - 它添加文本层而不尝试重建文档结构。对于大多数用途，标准“识别文本”选项更可取，因为它会生成结构正确的 Scanned PDF 以及准确的文本定位。

影响 OCR 准确性的因素

OCR 准确性与扫描质量直接相关。扫描相同的文档可以产生近乎完美的结果；扫描不良会产生错误，需要手动更正。

分辨率：300 DPI 是可靠 OCR 的最低分辨率。低于 200 DPI 时会经常出现错误，尤其是在小文本上。 600 DPI 提高了准确性，但会产生较大的文件。
对比度：白纸上清晰的黑色文本扫描精度近乎完美。褪色的墨水、彩色纸张或低对比度会产生更多错误。
倾斜：以较大角度扫描 页面会产生更多错误。现代 OCR 工具包括纠偏功能以纠正轻微的倾斜，但严重的角度会降低准确性。
字体类型：常见字体（Times、Arial、Helvetica）中的标准印刷字体可以准确识别。装饰字体、手写字体或非常小的字体会产生更多错误。

OCR 之后：依赖文本之前检查

OCR 并不完美——即使是高质量的扫描也会偶尔产生识别错误。常见错误包括混淆 0 与 O、1 与 l、rn 与 m，以及误读页面边缘附近的字符。对于准确性很重要的文档（合同、财务报表、法律文件），请在依赖 OCR 输出之前对照原始文件进行审查。

在 Acrobat Pro 中，查找和查找替换功能可以帮助系统地定位常见的OCR错误。搜索“0”并检查每个结果以查看是否有任何结果应为“O”，或反之亦然。对于重要文档，对原始扫描件进行全面校对是保证准确性的唯一方法。对于一般参考用途（使档案可搜索、提取文本进行分析），快速抽查通常就足够了。

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →