Perché non riesco a copiare il testo dal mio PDF?

Esistono tre ragioni completamente diverse per cui il testo non viene copiato da un PDF e ognuna ha una soluzione diversa. L'approccio che ne risolve uno non aiuterà con gli altri, quindi diagnosticare la situazione in cui ti trovi ti fa risparmiare molta frustrazione.

Motivo 1: PDF è un'immagine digitalizzata

Questa è la causa più comune. Quando esegui la scansione di un documento fisico, lo scanner fotografa la pagina e salva la fotografia all'interno di un contenitore PDF. Il testo che vedi sullo schermo è parte di un'immagine (pixel disposti in modo da sembrare lettere) e non caratteri di testo effettivi che possono essere selezionati o copiati. Fare clic su di esso è come provare a copiare il testo da una fotografia.

Test rapido: prova a cliccare e trascinare per evidenziare una singola parola. Se riesci a evidenziare singole parole o lettere, nel file è presente del testo reale. Se il cursore si comporta come se stessi selezionando un rettangolo di un'immagine e puoi solo afferrare una casella di contenuto della pagina, si tratta di un'immagine scansionata.

La soluzione è l’OCR: riconoscimento ottico dei caratteri. Il software OCR analizza l'immagine, identifica il testo e aggiunge un vero e proprio livello di testo al PDF che può essere cercato, selezionato e copiato. Dopo l'esecuzione dell'OCR, il documento appare identico ma si comporta come un normale PDF. Lo strumento OCR PDF di WukongPDF esegue questa operazione nel browser: carica il PDF scansionato, lo elabora e scarica una versione ricercabile.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →

Motivo 2: la copia è limitata dal proprietario del documento

PDF ha un sistema di autorizzazione che consente agli autori di limitare ciò che i lettori possono fare con un documento. Una di queste restrizioni è la copia: il proprietario può consentire la lettura ma bloccare la selezione e la copia del testo. Se questa restrizione è impostata, puoi vedere e leggere il testo sullo schermo, ma quando provi a selezionarlo non viene evidenziato nulla o quando incolli non viene visualizzato nulla.

Puoi verificare se è così: nella maggior parte dei visualizzatori PDF, vai su File → Proprietà o Proprietà del documento, quindi guarda la scheda Sicurezza o Autorizzazioni. Elencherà ciò che è consentito e limitato. Se "Copia contenuto" viene visualizzato come Non consentito, la limitazione della copia è attiva.

La possibilità di rimuovere questa restrizione dipende dalla disponibilità o meno della password. Se è il tuo documento e ricordi la password, qualsiasi editor PDF ti consentirà di aprirlo con la password e rimuovere le restrizioni. Se si tratta di un documento che qualcun altro ti ha inviato e ne ha intenzionalmente limitato la copia, dovrai chiedergli di inviarti una versione senza restrizioni.

Motivo 3: il testo viene copiato ma esce confuso

A volte copiare tecnicamente funziona, ma ciò che incolli è spazzatura: caratteri, simboli o testo casuali nell'ordine sbagliato. Questo è un problema di codifica dei caratteri. Alcuni PDF utilizzano caratteri personalizzati o incorporati con mappature dei caratteri non standard. Il visualizzatore PDF può visualizzare visivamente il testo utilizzando il carattere, ma quando provi a copiare i codici dei caratteri sottostanti, questi non corrispondono alle lettere che vedi.

Ciò accade più spesso con PDF meno recenti, documenti creati da determinati software di progettazione o file che utilizzavano una codifica di caratteri insolita. L'unica soluzione affidabile è eseguire l'OCR sul documento, che rilegge il contenuto visivo e crea un livello di testo nuovo e corretto. Ciò sostituisce la codifica interrotta con testo pulito e copiabile.

Quando il testo viene copiato ma presenta problemi di formattazione

Un problema leggermente diverso: il testo viene copiato correttamente ma esce con interruzioni di riga errate, parole unite o spazi mancanti. Questo è un comportamento normale con l'estrazione del testo PDF. I PDF memorizzano il testo come caratteri posizionati su una pagina, non come paragrafi scorrevoli come fa un documento Word. Quando copi una colonna di testo o un layout a più colonne, l'estrattore non sempre sa dove finisce una riga e ne inizia un'altra.

Per piccole quantità di testo, la pulizia manuale è solitamente la soluzione più rapida. Per volumi di grandi dimensioni, ad esempio l'estrazione del contenuto di un intero report, la conversione di PDF in Word utilizzando uno strumento di conversione PDF fornisce un risultato più pulito rispetto al copia-incolla, poiché il processo di conversione tenta di preservare la struttura del documento anziché estrarre le posizioni dei caratteri grezzi.

Come scegliere la soluzione giusta

Abbina la correzione alla diagnosi:

Impossibile selezionare testo, il cursore si comporta come un'immagine → Esegui OCR
Il testo è selezionabile sullo schermo ma non viene incollato → Controlla le autorizzazioni del documento, contatta il mittente se limitato
Incolla come caratteri confusi → Esegui OCR per ricostruire il livello di testo
Copia correttamente ma ha una formattazione errata → Converti in Word per estrazioni di grandi dimensioni, ripulisci manualmente per quelle piccole

Il percorso OCR risolve tre dei quattro casi, motivo per cui di solito è la prima cosa da provare se non sei sicuro di cosa sta succedendo. Un PDF scansionato che è stato sottoposto all'OCR si comporta come qualsiasi normale documento di testo: completamente ricercabile, selezionabile e copiabile.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →