¿Por qué no se pueden realizar búsquedas en mi PDF?

Un PDF donde Ctrl+F no encuentra nada, donde no se puede seleccionar ni copiar texto y donde al hacer clic en el texto se dibuja un cuadro rectangular en lugar de resaltar palabras individuales: este es un documento sin una capa de texto. Se almacena como una imagen en lugar de texto, lo que significa que el lector puede ver los caracteres pero el software no puede interpretarlos como caracteres.

Por qué algunos PDFs no tienen capa de texto

La razón más común es el escaneo. Cuando un documento físico se escanea y guarda como PDF, el resultado es una fotografía de la página envuelta en un contenedor PDF. El escáner captura cómo se ve el documento como imagen, pero no sabe cuáles son los caracteres. Sin un paso de OCR separado para interpretar la imagen y agregar datos de texto, el PDF se basa completamente en imágenes.

Otras causas: PDFs exportados desde cierto software de diseño que trata todo el contenido como gráficos en lugar de preservar el texto como texto, PDFs donde el texto se convirtió en contornos (una técnica de diseño que corrige la apariencia visual pero destruye la capa de texto) y PDFs creados al fotografiar documentos con un teléfono sin ninguna aplicación de escaneo que aplique OCR.

Pruebe PDF OCR

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →

Confirmando el problema

La prueba más rápida: intenta seleccionar una palabra haciendo clic y arrastrándola. Si se resaltan palabras o caracteres individuales, el PDF tiene una capa de texto y se puede buscar, en cuyo caso hay algo más que hace que la búsqueda falle (consulte la sección siguiente sobre capas de texto roto). Si toda el área de la página se selecciona como un rectángulo independientemente de dónde arrastre, la página se almacena como una imagen sin texto.

Una verificación secundaria: presione Ctrl+A para seleccionar todo. En un documento con una capa de texto, esto selecciona todo el texto y puedes copiarlo. En un PDF de solo imagen, Ctrl+A selecciona la página como un objeto completo; no se coloca ningún texto en el portapapeles al copiar.

Agregar una capa de texto con OCR

OCR (reconocimiento óptico de caracteres) lee la imagen de cada página y agrega una capa de texto oculta que contiene los caracteres reconocidos. La apariencia visual del documento no cambia (aún se parece al escaneo original), pero el texto se puede seleccionar, copiar y buscar.

La herramienta OCR PDF de WukongPDF maneja esto en el navegador: cargue el PDF escaneado, ejecute OCR y descargue la versión con capacidad de búsqueda. Para escaneos limpios y de alto contraste de texto impreso estándar, la precisión es lo suficientemente alta como para que la capa de texto resultante sea confiable para la búsqueda. Abra el archivo procesado y presione Ctrl+F para verificarlo; al buscar una palabra que aparezca claramente en el documento, podrá encontrarla inmediatamente.

Cuando la capa de texto existe pero la búsqueda aún no funciona

A veces, un PDF tiene texto que se puede seleccionar pero Ctrl+F aún no puede encontrarlo. Por lo general, esto se reduce a una de tres cosas. Primero, la codificación de la fuente puede estar rota: el PDF tiene datos de texto pero la tabla de asignación de caracteres está corrupta, por lo que el espectador puede resaltar algo pero no sabe qué caracteres son cuáles. En segundo lugar, la capa de texto del OCR puede tener errores en la palabra específica que estás buscando. En tercer lugar, algunos PDF utilizan caracteres Unicode o codificaciones especiales que no coinciden con el comportamiento de búsqueda estándar.

Para problemas de codificación, ejecutar PDF a través de un convertidor PDF para extraer y volver a incrustar el texto a veces resuelve el problema de asignación de caracteres. La conversión a Word, que obliga al texto a pasar por un paso de recodificación limpia y luego exportarlo nuevamente a PDF, también puede solucionar problemas de búsqueda causados por una codificación de fuentes corrupta.

Prevención del problema en exploraciones futuras

Si escanea con regularidad documentos que necesitan que se puedan realizar búsquedas, incorpore OCR al flujo de trabajo de escaneo en lugar de agregarlo después. La mayoría de los software de escáner modernos tienen una opción para aplicar OCR automáticamente y guardar un PDF con capacidad de búsqueda directamente. Las aplicaciones de escaneo de teléfonos como Microsoft Lens, Adobe Scan y la función de cámara de Google Drive aplican OCR de forma predeterminada y producen PDFs con capacidad de búsqueda desde el principio, sin un paso de procesamiento separado.

Pruebe PDF OCR

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →