Others

您可以将图像转换为可搜索的 PDF 吗?

将图像转换为可搜索的 PDF 是一个两阶段的过程:首先图像变成 PDF,然后 OCR 添加文本层,以便可以搜索和选择内容。这两个步骤可以在支持它的工具中一起完成,或者如果您希望对每个阶段有更多的控制,也可以单独完成。

Can You Convert an Image to a Searchable PDF?

常规图像PDF和可搜索图像之间的区别

当您在不使用 OCR 的情况下将图像转换为 PDF 时,您会得到一个显示该图像的 PDF — 您可以打开它、放大、打印它 — 但您无法选择文本、搜索单词或复制内容。它本质上是一张包裹在 PDF 容器中的照片。可搜索的 PDF 在图像下方添加了一个隐藏文本层,该文本层是通过 OCR 读取图像中的文本创建的。视觉外观没有变化,但现在 Ctrl+F 可以查找单词并且可以复制文本。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →

同时执行这两个步骤

WukongPDF 的 OCR PDF 工具直接接受图像,而不仅仅是现有的 PDF。上传 JPG、PNG 或 TIFF 文件,该工具会将其转换为 PDF 并一步运行 OCR,返回可搜索的 PDF。从图像文件而不是现有的 PDF 开始时,这是最有效的路径。

Google 云端硬盘也可以一步处理此问题:将图像上传到云端硬盘,右键单击它,然后选择打开方式 → Google 文档。 Drive 转换图像并自动运行 OCR。结果是一个可编辑的 Google 文档,而不是可搜索的 PDF,但如果需要,您可以从那里将其下载为 PDF。

图像质量决定 OCR 准确性

OCR 读取像素——输入图像的质量直接决定文本识别的准确程度。 200 DPI 或以上的清晰、高对比度打印文档照片通常可以以非常高的精度进行转换。无论您使用哪种 OCR 引擎,在光线不佳的情况下以某个角度拍摄的模糊手机照片都会出现许多错误。

如果您正在拍摄物理文档以创建可搜索的 PDF,有几件事可以显着改善结果:平坦、均匀的照明,页面上没有阴影;相机位于文档正上方,而不是倾斜;并且文档是平放的而不是弯曲的。 Microsoft Lens 和 Adob​​e Scan 等手机扫描应用程序会在 OCR 之前应用自动透视校正和对比度增强,这就是为什么它们通常会比标准相机照片产生更好的结果。

检查输出

转换后,通过打开 PDF 并尝试按 Ctrl+F 输入您在文档中看到的单词来验证 OCR 是否有效。如果找到,则文本层可用。尝试选择一个段落并复制它 - 粘贴到文本编辑器中以确认字符正确而不是乱码。对于将要存档或依赖于搜索的文档,抽查几页 OCR 准确性是值得花费几分钟的。

OCR 之后的 PDF 压缩 通道也可以帮助减小文件大小 - 全分辨率图像和嵌入文本层的组合可以生成比预期更大的文件,特别是对于多页图像扫描。

WukongPDF

尝试 PDF OCR

无需安装。直接在您的浏览器中工作。

立即开始 →