Tips & Tricks

如何使扫描的 PDF 中的文本可选

扫描的 PDF 显示您可以用眼睛阅读的文本,但无法单击、选择、复制或搜索。这是因为“文本”是实际上是一张照片——像素排列得像字母。使文本可选择需要运行 OCR,它会读取图像并向文档添加真实的文本层。 OCR 后,PDF 看起来相同,但文本变得可复制、可搜索和可访问。

How to Make Text Selectable in a Scanned PDF

OCR 对扫描的 PDF 有何作用

OCR(光学字符识别)分析每个页面图像中的像素模式,识别与字母和数字相对应的形状,并创建一个与可见字符对齐的隐藏文本层。经过 OCR PDF 处理后,文档有两层:原始扫描图像(未更改,仍然可见)和下面的文本层,供查看者在您选择或搜索时使用。

文档的视觉外观不会改变 - OCR 之前和之后的扫描结果看起来相同。改变的是文档的功能:文本变得可以逐个字符选择,Ctrl+F 搜索有效,复制粘贴会生成真实文本而不是空文本,屏幕阅读器可以大声朗读内容。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

使用WukongPDF的OCR工具

www.wukongpdf.com 的 WukongPDF 在浏览器中处理 OCR,无需安装软件。上传扫描的PDF,选择文档语言以获得更好的识别准确性,处理并下载可搜索的结果。转换后的文件是带有文本层的标准 PDF - 与每个 PDF 查看器兼容。

下载后立即测试:打开PDF,按Ctrl+F,搜索第一页可以看到的单词。如果找到了,OCR 就起作用了。尝试选择并复制一个句子 - 粘贴的文本应该与您看到的内容相符。如果未找到任何内容或复制的文本看起来有误,则 OCR 存在准确性问题,可能是由于扫描质量造成的。

Adobe Acrobat 的增强扫描

Adobe Acrobat Pro 和 Acrobat Standard 包含称为增强扫描的专用 OCR 功能。打开扫描的PDF,转到“工具”>“增强扫描>识别文本>在此文件中。设置文档语言并单击识别文本。 Acrobat 处理页面并添加文本图层。对于多页文档,Acrobat 在一次操作中处理所有页面。

Acrobat 还提供“使可搜索”功能与完整 OCR 略有不同的选项 - 它添加文本层而不尝试重建文档结构。对于大多数用途,标准“识别文本”选项更可取,因为它会生成结构正确的 Scanned PDF 以及准确的文本定位。

影响 OCR 准确性的因素

OCR 准确性与扫描质量直接相关。扫描相同的文档可以产生近乎完美的结果;扫描不良会产生错误,需要手动更正。

  • 分辨率:300 DPI 是可靠 OCR 的最低分辨率。低于 200 DPI 时会经常出现错误,尤其是在小文本上。 600 DPI 提高了准确性,但会产生较大的文件。
  • 对比度:白纸上清晰的黑色文本扫描精度近乎完美。褪色的墨水、彩色纸张或低对比度会产生更多错误。
  • 倾斜:以较大角度扫描 页面会产生更多错误。现代 OCR 工具包括纠偏功能以纠正轻微的倾斜,但严重的角度会降低准确性。
  • 字体类型:常见字体(Times、Arial、Helvetica)中的标准印刷字体可以准确识别。装饰字体、手写字体或非常小的字体会产生更多错误。

OCR 之后:依赖文本之前检查

OCR 并不完美——即使是高质量的扫描也会偶尔产生识别错误。常见错误包括混淆 0 与 O、1 与 l、rn 与 m,以及误读页面边缘附近的字符。对于准确性很重要的文档(合同、财务报表、法律文件),请在依赖 OCR 输出之前对照原始文件进行审查。

在 Acrobat Pro 中,查找和查找替换功能可以帮助系统地定位常见的OCR错误。搜索“0”并检查每个结果以查看是否有任何结果应为“O”,或反之亦然。对于重要文档,对原始扫描件进行全面校对是保证准确性的唯一方法。对于一般参考用途(使档案可搜索、提取文本进行分析),快速抽查通常就足够了。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →