Others

Perché la copia del testo da un PDF aggiunge interruzioni di riga extra?

Copi un paragrafo da un PDF e lo incolli da qualche altra parte, e ogni riga termina con un ritorno a capo: il testo non si ridispone, si interrompe semplicemente nel punto in cui finisce la riga sulla pagina. Questo è uno dei fastidi PDF più comuni e ha una causa tecnica specifica che spiega perché accade e cosa puoi fare al riguardo.

Why Does Copying Text From a PDF Add Extra Line Breaks?

Perché ciò accade: come PDF memorizza il testo

Un PDF non memorizza il testo come paragrafi come fa Word o Google Docs. Memorizza invece singoli caratteri o piccoli gruppi di caratteri, ciascuno con una posizione specifica sulla pagina: coordinate X e Y che posizionano ogni porzione di testo esattamente dove dovrebbe apparire. Il renderer PDF disegna questi pezzi posizionati per produrre il risultato visivo che vedi.

Quando copi del testo, il visualizzatore PDF deve ricostruire il flusso di testo da questi frammenti posizionati. Legge i caratteri in ordine e deve indovinare dove finisce una riga e ne inizia un'altra in base ai cambiamenti di posizione verticale. Quando rileva un'interruzione di riga, ovvero un salto nella posizione Y, inserisce un carattere di interruzione di riga. Il risultato è che ogni riga visiva nel PDF diventa una riga separata nel testo incollato.

Questa è una caratteristica fondamentale del funzionamento dell'estrazione del testo PDF, non un bug in nessun visualizzatore specifico. Alcuni PDF includono informazioni strutturali che aiutano gli spettatori a distinguere tra ritorni a capo morbidi (all'interno di un paragrafo) e interruzioni di paragrafo rigide, ma molti non lo fanno, soprattutto i PDF più vecchi o quelli esportati da determinati software.

WukongPDF

Prova a modificare PDF

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →

Quando è peggio: layout a più colonne

I layout a più colonne peggiorano notevolmente questo problema. Quando il testo scorre in due o tre colonne, il visualizzatore PDF estrae il testo in ordine da sinistra a destra e dall'alto in basso spesso intercala testo da colonne diverse: una riga dalla colonna di sinistra, quindi una riga dalla colonna di destra, quindi la riga successiva da sinistra. La pasta risultante viene strapazzata e richiede una significativa pulizia manuale.

Gli articoli accademici in formato a due colonne sono noti per questo. La copia di un paragrafo da un documento di ricerca PDF spesso produce frammenti alternati da entrambe le colonne anziché un blocco di testo pulito a colonna singola.

Soluzioni rapide per piccole quantità di testo

Per alcuni paragrafi, la soluzione più rapida è un'operazione di ricerca e sostituzione nell'editor di testo o nell'elaboratore di testi dopo aver incollato. Vuoi sostituire le interruzioni di riga singole (che sono quelle indesiderate all'interno dei paragrafi) mantenendo le interruzioni di riga doppie (che separano i paragrafi autentici).

In Microsoft Word, utilizza Trova e trova. Sostituisci con caratteri jolly: sostituisce i singoli segni di paragrafo (^p) che non sono seguiti da un altro segno di paragrafo, sostituendoli con uno spazio. In un editor di testo semplice, la maggior parte degli strumenti di ricerca e sostituzione ti consentono di utilizzare espressioni regolari per fare lo stesso. Ciò riduce in pochi secondi un incolla spezzato di 30 righe in un paragrafo ridisposto correttamente.

Approcci migliori per grandi quantità di testo

Per estrarre grandi quantità di testo da un PDF, il copia-incolla è lo strumento sbagliato. La conversione di PDF in Word utilizzando un PDF Converter produce risultati migliori perché il processo di conversione tenta di ricostruire la struttura del documento, identificando paragrafi, intestazioni e layout, anziché limitarsi a estrarre le posizioni dei caratteri grezzi.

Il documento Word convertito necessita ancora di revisione, soprattutto per i layout complessi, ma la struttura del paragrafo è solitamente intatta e non si verificano interruzioni riga per riga nell'intero documento.

Miglioramenti specifici del visualizzatore

Alcuni visualizzatori PDF gestiscono l'estrazione del testo meglio di altri. Adobe Acrobat Reader dispone di una funzione "Copia con formattazione" opzione che fa un lavoro migliore nel ricostruire i paragrafi rispetto alla copia di base. Se estrai il testo regolarmente, testando diversi visualizzatori sullo stesso PDF a volte ne trovi uno che produce un output più pulito.

In definitiva, la qualità dell'estrazione del testo dipende da come è stato creato il PDF. Un PDF ben strutturato esportato da un moderno elaboratore di testi con tag di paragrafo adeguati viene estratto in modo pulito. Un PDF stampato su file, convertito da un'immagine o esportato da un software che non incorpora informazioni strutturali produrrà sempre testo spezzato sulla copia. Per questi file, la conversione in Word è il percorso affidabile.

WukongPDF

Prova a modificare PDF

Nessuna installazione necessaria. Funziona direttamente nel tuo browser.

Inizia ora →