Cómo recuperar texto de un PDF dañado

La única copia de un contrato de hace tres años es un PDF que ahora se abre con un mensaje de error. Un informe de investigación descargado de un sitio web ahora desaparecido no mostrará nada más allá de la página cuatro. El acuerdo firmado por un cliente se almacenó en una unidad que desarrolló errores y el archivo recuperado está parcialmente dañado. Estas situaciones son estresantes, pero no siempre son desesperadas. La recuperación de texto de PDF dañados es posible con más frecuencia de lo que la gente espera; la cuestión es saber qué enfoque probar primero.

Comprenda qué tipo de daño está enfrentando

No todos los daños de PDF son iguales y el enfoque de recuperación depende de lo que salió mal. Unas cuantas observaciones rápidas te dicen mucho:

El archivo no se abre en absoluto: el encabezado del archivo o la estructura interna están dañados. Una herramienta de reparación necesita reconstruir la estructura del archivo antes de poder acceder a cualquier contenido.
El archivo se abre pero algunas páginas están en blanco o faltan: corrupción parcial: la estructura del archivo está intacta pero algunos objetos de contenido están dañados o faltan. La recuperación puede recuperar las partes no dañadas.
El texto se muestra como símbolos o caracteres confusos: corrupción en la codificación de fuentes. Los datos del texto pueden estar intactos pero la asignación entre caracteres y glifos está rota.
El archivo es muy pequeño (unos pocos KB cuando debería ser mucho más grande): descarga o transferencia incompleta. El archivo nunca se recibió en su totalidad; obtener una copia nueva de la fuente es la solución, no la reparación.

Pruebe reparar PDF

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →

Pruebe con un visor de PDF diferente antes que nada

Algunos archivos que fallan en un visor se abren correctamente en otro. Adobe Reader, el visor de PDF integrado de Chrome, Apple Preview, Foxit y Sumatra PDF utilizan diferentes motores de renderizado. Un archivo que un motor no puede analizar puede estar dentro de la tolerancia de recuperación de otro.

Si algún espectador abre el archivo, aunque sea parcialmente, intente copiar inmediatamente todo el texto visible (Ctrl+A y luego Ctrl+C) y péguelo en un documento de Word. Esto captura cualquier texto al que se pueda acceder en el estado actual del archivo, independientemente de si la estructura del archivo es recuperable. Una extracción de texto imperfecta es mejor que nada y puede capturar la mayor parte del contenido incluso de un archivo significativamente dañado.

Utilice una herramienta de reparación PDF

Una herramienta Repair PDF dedicada intenta reconstruir la estructura interna del archivo escaneando el archivo dañado en busca de objetos de contenido recuperables (flujos de texto, imágenes, definiciones de páginas) y reconstruyendo un PDF válido a partir de todo lo que pueda encontrar. Esto es diferente a simplemente abrir el archivo; Las herramientas de reparación buscan y solucionan específicamente daños estructurales.

La herramienta de reparación de WukongPDF en www.wukongpdf.com se encarga de esto: cargue el archivo dañado, deje que se ejecute el proceso de reparación y descargue lo que sea recuperable. Para archivos parcialmente dañados donde la mayor parte del contenido está intacto pero la estructura del archivo está rota, esto a menudo produce un PDF completamente legible. Para archivos muy dañados, puede recuperar partes del contenido. El resultado depende de qué cantidad de datos subyacentes sobrevivieron al daño.

Extraer texto directamente de los datos del archivo

Los archivos PDF almacenan texto en secuencias dentro de la estructura del archivo. Incluso cuando la estructura PDF está demasiado dañada para que un espectador pueda renderizar el documento, los flujos de texto aún pueden estar intactos y legibles con las herramientas adecuadas. Para usuarios técnicamente seguros, abrir el PDF en un editor de texto (no en un visor de PDF) puede revelar contenido de texto legible incrustado en los datos sin procesar del archivo; busque cadenas de caracteres legibles entre el contenido binario.

Las herramientas de línea de comandos como pdftotext (parte del paquete poppler) pueden extraer texto de PDFs que no se abren en los visores estándar. La ejecución de pdftotext en un archivo dañado a veces recupera contenido sustancial de texto incluso cuando la representación visual falla por completo. Este enfoque requiere comodidad con las herramientas de línea de comandos, pero puede acceder a contenido que las herramientas GUI pasan por alto.

Caso especial: PDFs escaneado dañado

Los PDFs escaneados almacenan el contenido como imágenes en lugar de texto. Si los datos de la imagen en un PDF escaneado están dañados, las herramientas de extracción de texto no ayudarán: no hay ninguna capa de texto para extraer. El contenido recuperable son los datos de la imagen en sí.

Para PDFs escaneados parcialmente dañados, una herramienta de reparación que recupera los objetos de la imagen puede producir un documento visible incluso si la estructura del archivo está rota. Después de la reparación, la ejecución de OCR en el documento recuperado convierte el contenido de la imagen en texto con capacidad de búsqueda, lo que hace que la versión recuperada sea más útil que el escaneo original sin capacidad de búsqueda.

Lo que la recuperación puede y no puede hacer

No se garantiza la recuperación de texto de PDFs dañados. La tasa de éxito depende del tipo y extensión del daño:

Corrupción estructural con contenido intacto: alta tasa de recuperación: el contenido está ahí, pero el archivo simplemente no puede presentarlo correctamente
Daño parcial al contenido: recuperación parcial: algunas páginas o secciones recuperables, otras se pierden
Sectores de almacenamiento sobrescritos: recuperación baja o nula: si los datos subyacentes se sobrescribieron, ninguna herramienta puede recrearlos
Descarga incompleta (el archivo simplemente está truncado): obtenga una copia nueva en lugar de intentar repararla

La lección para el futuro: para cualquier documento importante, guarde varias copias en diferentes ubicaciones. Una copia de seguridad en una unidad diferente, una copia en el almacenamiento en la nube, un correo electrónico para usted mismo: cualquiera de estos proporciona una ruta de recuperación que hace que las herramientas de reparación de PDF sean innecesarias. El mejor escenario Repair PDF es aquel que nunca necesitarás usar.

Pruebe reparar PDF

No se necesita instalación. Funciona directamente en su navegador.

Empezar ahora →