Perché il testo PDF appare diverso quando viene copiato?

Copi il testo da un PDF e lo incolli da qualche altra parte e il risultato sembra sbagliato. I caratteri sono fuori ordine, le legature come "fi" diventa "ﬁ" o scompaiono, le parole si susseguono senza spazi o i caratteri speciali si trasformano in punti interrogativi. Questo è un problema di codifica del testo PDF e ha cause specifiche che spiegano perché si verifica e cosa si può fare al riguardo.

Why Does PDF Text Look Different When Copied?

Come PDF memorizza il testo e perché va storto

PDF è stato progettato principalmente come formato visivo: descrive esattamente l'aspetto di una pagina, non il significato del testo. La codifica del testo interno in un PDF può essere molto diversa dall'Unicode standard. Alcuni PDF utilizzano mappature di glifi personalizzate in cui i codici dei caratteri memorizzati internamente non corrispondono ai codici delle lettere standard, quindi quando copi, gli appunti ricevono i codici interni anziché i caratteri che vedi.

Un PDF ben costruito include una tabella di mappatura ToUnicode che indica allo spettatore come tradurre i codici interni in caratteri Unicode standard. Quando questa tabella è mancante, incompleta o errata, il copia-incolla produce risultati confusi anche se il testo viene visualizzato perfettamente sullo schermo. La visualizzazione e il testo copiabile provengono da sistemi diversi: la visualizzazione utilizza il glifo visivo, il copia-incolla utilizza i dati di testo.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →

Legature e caratteri speciali

Le legature sono combinazioni tipografiche: "fi", "fl", "ff", "ffi" e "fi". - dove due o tre caratteri sono uniti in un unico glifo per ragioni estetiche. In un PDF scarsamente codificato, il glifo della legatura non ha una mappatura ToUnicode per i singoli caratteri che rappresenta. Quando viene copiata, la legatura diventa un singolo carattere speciale (ﬁ invece di fi), diventa nulla o diventa un simbolo segnaposto.

Questo è il motivo per cui la copia da alcuni PDF composti professionalmente produce testo con lettere mancanti: parole come "ufficio" diventare "o ce" perché il "ffi" la legatura non aveva una mappatura Unicode utilizzabile. La parola sembrava corretta sullo schermo; i dati del testo sottostante erano danneggiati.

Spazi mancanti tra le parole

Alcuni PDF rappresentano gli spazi non come caratteri di spazio effettivi nel flusso di testo ma come offset posizionali: il visualizzatore visualizza uno spazio tra le parole spostando la posizione del cursore, non inserendo un carattere di spazio. Durante la copia, l'offset posizionale non viene tradotto in un carattere di spazio, quindi le parole corrono insieme: "la parola" invece della "parola".

Questo è comune nei PDF esportati da applicazioni di progettazione come InDesign o Illustrator quando la spaziatura del testo è controllata a livello di progettazione anziché tramite la codifica del testo standard.

Problemi relativi all'ordine di colonna e di lettura

In un PDF a più colonne, l'ordine di lettura visiva (colonna in basso uno, poi colonna in basso due) potrebbe non corrispondere all'ordine del testo interno (da sinistra a destra su tutta la larghezza della pagina). La copia di testo da un layout a due colonne spesso produce testo che si alterna tra le colonne riga per riga, facendolo apparire confuso anche se ogni singola parola è corretta.

Questo non è un problema di codifica: è un problema di ordine di lettura. Il testo è codificato correttamente; è semplicemente memorizzato in un ordine che non corrisponde a come lo leggerebbe un essere umano. La soluzione consiste nel copiare il testo da una colonna alla volta anziché selezionarlo su entrambe le colonne.

Cosa fare quando il testo copiato è confuso

Prova un diverso PDF visualizzatore: diversi visualizzatori gestiscono la mappatura ToUnicode in modo diverso. Se la copia di Chrome produce testo confuso, prova a copiare da Adobe Reader: spesso produce risultati più puliti per lo stesso PDF.
Converti prima in Word: a __Il convertitore da PDF__ a Word rielabora la codifica del testo durante la conversione. Il documento Word risultante spesso produce un copia-incolla pulito anche quando il PDF originale non lo faceva.
Esegui l'OCR su una copia: gli strumenti OCR rileggono il testo visibile dalle immagini della pagina e creano testo nuovo e codificato correttamente. Il risultato OCR PDF può produrre un copia-incolla migliore rispetto alla codifica originale, in particolare per la composizione professionale scarsamente codificata.
Utilizza Trova e trova Sostituisci per errori comuni: se la stessa legatura o carattere viene incollato costantemente in modo errato, incolla il risultato incollato in Word e utilizza Trova e trova. Sostituisci per correggere l'errore ricorrente.

Prevenire il problema alla fonte

Se stai creando PDF e desideri garantire un comportamento copia-incolla pulito per i destinatari, utilizza applicazioni che generano mapping ToUnicode corretti. Per impostazione predefinita, Microsoft Word esporta con la mappatura Unicode corretta. Adobe InDesign può esportare con o senza la codifica del testo corretta a seconda delle impostazioni: nella finestra di dialogo Esporta PDF, assicurati che "Utilizza la struttura del documento per l'ordine di tabulazione"; e le opzioni di accessibilità del testo sono abilitate. Prova il copia-incolla dal PDF esportato prima della distribuzione per individuare i problemi di codifica prima che raggiungano i destinatari.

Prova PDF OCR

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →