L'unica copia di un contratto di tre anni fa è un PDF che ora si apre con un messaggio di errore. Un rapporto di ricerca scaricato da un sito web ormai defunto non mostrerà nulla oltre la quarta pagina. L'accordo firmato da un cliente è stato archiviato su un'unità che ha sviluppato errori e il file recuperato è parzialmente danneggiato. Queste situazioni sono stressanti, ma non sono sempre senza speranza. Il recupero del testo da PDF danneggiati è possibile più spesso di quanto le persone si aspettino: la domanda è sapere quale approccio provare per primo.

Capisci con che tipo di danno hai a che fare
Non tutti i danni ai PDF sono uguali e l'approccio di ripristino dipende da cosa è andato storto. Alcune rapide osservazioni ti dicono molto:
- Il file non si apre affatto: l'intestazione del file o la struttura interna è danneggiata. Uno strumento di riparazione deve ricostruire la struttura del file prima che sia possibile accedere a qualsiasi contenuto.
- Il file si apre ma alcune pagine sono vuote o mancanti: corruzione parziale: la struttura del file è intatta ma alcuni oggetti di contenuto sono danneggiati o mancanti. Il ripristino può recuperare le parti incorrotte.
- Il testo viene visualizzato come simboli o caratteri confusi: corruzione della codifica dei caratteri . I dati di testo potrebbero essere intatti ma la mappatura tra caratteri e glifi è interrotta.
- Il file è molto piccolo (pochi KB quando dovrebbe essere molto più grande): download o trasferimento incompleto. Il file non è mai stato ricevuto completamente: ottenere una nuova copia dalla fonte è la soluzione, non la riparazione.
Prova a riparare PDF
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
Prova un PDF visualizzatore diverso prima di ogni altra cosa
Alcuni file che non riescono in un visualizzatore si aprono correttamente in un altro. Adobe Reader, il visualizzatore PDF integrato di Chrome, Apple Preview, Foxit e Sumatra PDF utilizzano tutti motori di rendering diversi. Un file che un motore non è in grado di analizzare potrebbe rientrare nella tolleranza di ripristino di un altro.
Se un visualizzatore apre il file, anche parzialmente, prova immediatamente a copiare tutto il testo visibile (Ctrl+A quindi Ctrl+C) e incollarlo in un documento Word. Ciò acquisisce qualsiasi testo accessibile nello stato corrente del file, indipendentemente dal fatto che la struttura del file sia recuperabile. Un'estrazione del testo imperfetta è meglio di niente e potrebbe catturare la maggior parte del contenuto anche da un file notevolmente danneggiato.
Utilizza uno PDF strumento di riparazione
Uno strumento dedicato Repair PDF tenta di ricostruire la struttura interna del file eseguendo la scansione del file danneggiato alla ricerca di oggetti di contenuto recuperabili (flussi di testo, immagini, definizioni di pagina) e ricostruendo un PDF valido da qualunque cosa riesca a trovare. Questo è diverso dalla semplice apertura del file; gli strumenti di riparazione cercano e risolvono specificamente i danni strutturali.
Lo strumento di riparazione di WukongPDF su www.wukongpdf.com si occupa di questo: carica il file danneggiato, lascia che il processo di riparazione venga eseguito e scarica tutto ciò che era recuperabile. Per i file parzialmente danneggiati in cui la maggior parte del contenuto è intatto ma la struttura del file è danneggiata, spesso viene prodotto un PDF completamente leggibile. Per i file gravemente danneggiati, potrebbe recuperare parti del contenuto. L’output dipende dalla quantità di dati sottostanti sopravvissuti al danno.
Estrai testo direttamente dai dati del file
I file PDF memorizzano il testo in flussi all'interno della struttura del file. Anche quando la struttura PDF è troppo danneggiata perché un visualizzatore possa eseguire il rendering del documento, i flussi di testo potrebbero essere ancora intatti e leggibili con gli strumenti giusti. Per gli utenti tecnicamente esperti, l'apertura di PDF in un editor di testo (non in un visualizzatore PDF) può rivelare contenuti di testo leggibili incorporati nei dati grezzi del file: cercare stringhe di caratteri leggibili nel contenuto binario.
Gli strumenti da riga di comando come pdftotext (parte del pacchetto poppler) possono estrarre testo da PDF che non si apre nei visualizzatori standard. L'esecuzione di pdftotext su un file danneggiato a volte recupera un contenuto di testo sostanziale anche quando la resa visiva fallisce completamente. Questo approccio richiede dimestichezza con gli strumenti da riga di comando ma consente di accedere a contenuti che gli strumenti della GUI non riescono a vedere.
Caso speciale: scansione danneggiata PDFs
I PDF scansionati memorizzano i contenuti come immagini anziché come testo. Se i dati dell'immagine in un PDF scansionato sono danneggiati, gli strumenti di estrazione del testo non saranno d'aiuto: non c'è alcun livello di testo da estrarre. Il contenuto recuperabile sono i dati dell'immagine stessa.
Per i PDF scansionati parzialmente danneggiati, uno strumento di riparazione che recupera gli oggetti immagine può produrre un documento visualizzabile anche se la struttura del file è danneggiata. Dopo la riparazione, l'esecuzione dell'OCR sul documento recuperato converte il contenuto dell'immagine in testo ricercabile, rendendo la versione recuperata più utile della scansione originale non ricercabile.
Cosa può e non può fare il recupero
Il recupero del testo da PDF danneggiati non è garantito. La percentuale di successo dipende dal tipo e dall’entità del danno:
- Corruzione strutturale con contenuto intatto: tasso di recupero elevato: il contenuto è presente, il file semplicemente non riesce a presentarlo correttamente
- Danno parziale al contenuto: recupero parziale: alcune pagine o sezioni sono recuperabili, altre sono perse
- Settori di storage sovrascritti: ripristino minimo o nullo: se i dati sottostanti sono stati sovrascritti, nessuno strumento può ricrearli
- Download incompleto (il file è semplicemente troncato): ottieni una nuova copia anziché tentare la riparazione
La lezione per il futuro: per qualsiasi documento importante, conserva più copie in luoghi diversi. Un backup su un'unità diversa, una copia nell'archivio cloud, un'e-mail a te stesso: ognuno di questi fornisce un percorso di ripristino che rende superflui gli strumenti di riparazione PDF. Lo scenario migliore per Riparazione PDF è quello che non dovrai mai utilizzare.
Prova a riparare PDF
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
