Un PDF con una tabella di dati sembra facile da copiare in Excel, finché non lo provi e scopri che i dati risultano confusi in una singola colonna o con interruzioni di riga nei posti sbagliati o celle unite che non corrispondono alla struttura della tabella originale. Per ottenere i dati della tabella in modo pulito da PDF a Excel è necessario sapere quale metodo funziona per il tuo tipo PDF specifico.

Perché il copia-incolla produce solitamente risultati disordinati
PDF memorizza il contenuto della tabella come testo posizionato: singoli elementi di testo posizionati in coordinate specifiche sulla pagina, non come dati di tabella strutturati con righe e colonne. Quando copi e incolli da un PDF, stai copiando il testo nell'ordine in cui appare nella struttura interna del file, che potrebbe non corrispondere all'ordine di lettura visiva. Una tabella a tre colonne con dieci righe potrebbe essere incollata come trenta righe di testo senza separazione di colonne.
Alcuni visualizzatori PDF gestiscono il rilevamento delle tabelle durante l'incolla meglio di altri. La copia di Adobe Acrobat Reader tende a produrre risultati migliori rispetto ai visualizzatori basati su browser. Ma per le tabelle complesse, il copia-incolla raramente è sufficientemente pulito da poter essere utilizzato senza una significativa pulizia manuale.
Prova PDF in Excel
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
Il metodo migliore: converti PDF direttamente in Excel
Un convertitore dedicato da PDF a Excel analizza il layout del PDF, identifica le strutture delle tabelle e mappa il contenuto nelle celle del foglio di calcolo. Il risultato è un file Excel in cui le righe e le colonne della tabella corrispondono al layout PDF originale, molto più pulito del copia-incolla.
Lo strumento PDF in Excel di WukongPDF su www.wukongpdf.com gestisce questo: carica il PDF, scarica il file Excel. Per i PDF digitali con una struttura tabellare chiara, la conversione è solitamente sufficientemente pulita da poter essere utilizzata con una correzione minima. Per le tabelle complesse con celle unite, intestazioni nidificate o struttura irregolare, è ancora necessaria qualche pulizia manuale, ma molto meno che con il copia-incolla.
Scansionati PDF: prima OCR, poi converti
Se il PDF contenente la tabella è una scansione, ovvero un'immagine di una pagina anziché un documento digitale, il copia-incolla non funzionerà affatto (non c'è testo da copiare) e la conversione diretta produrrà scarsi risultati. Le tabelle scansionate necessitano prima dell'elaborazione OCR per estrarre il testo reale, quindi il testo deve essere interpretato come struttura della tabella.
Alcuni convertitori da PDF a Excel applicano automaticamente l'OCR quando rilevano un documento scansionato. Altri richiedono che tu esegua prima l'OCR e poi la conversione. Controlla la qualità della scansione prima di tentare la conversione: le tabelle con confini di righe e colonne chiari vengono convertite meglio di quelle con linee deboli o spaziatura irregolare.
Adobe Acrobat Pro: esporta in Excel
Adobe Acrobat Pro dispone di una funzione Esporta in Excel incorporata (File > Esporta in > Foglio di calcolo > Cartella di lavoro di Microsoft Excel). Questo è uno degli strumenti di estrazione delle tabelle più accurati disponibili: l'algoritmo di rilevamento delle tabelle di Acrobat è maturo e gestisce un'ampia gamma di tipi di tabelle.
L'esportazione crea un file Excel in cui ciascuna tabella su ciascuna pagina viene inserita in un foglio di lavoro o sezione separato. Tabelle complesse multipagina, tabelle con intestazioni che si ripetono e tabelle con celle unite sono tutte gestite abbastanza bene. Se disponi di Acrobat Pro, questa è l'opzione di massima qualità per l'estrazione delle tabelle.
Quando il copia-incolla è l'unica opzione: come ripulirlo
Se uno strumento di conversione non è disponibile ed è necessario utilizzare il copia-incolla, questi passaggi riducono al minimo il lavoro di pulizia:
- In Adobe Reader, seleziona il testo della tabella e utilizza Modifica > Copia con formattazione se disponibile: preserva una parte maggiore della struttura tabellare rispetto alla copia semplice
- Incolla prima in un editor di testo (Blocco note, TextEdit), non direttamente in Excel: questo ti consente di vedere la struttura grezza senza che la formattazione delle celle di Excel complichi le cose
- Copia il testo dall'editor di testo e incollalo in Excel utilizzando Incolla speciale > Testo
- Utilizza la funzionalità Testo in colonne di Excel (Dati > Testo in colonne) per dividere i dati incollati in colonne separate in base a un delimitatore o a larghezze fisse
Quando nessuno strumento produce un risultato pulito
Alcune tabelle sono davvero difficili per gli strumenti automatizzati: tabelle nidificate all'interno di tabelle, tabelle con complessi modelli di celle unite, tabelle che si estendono su più pagine con intestazioni ripetute o tabelle in cui i dati sono strutturati visivamente senza markup formale della tabella nel PDF. Per questi, l'approccio più pratico potrebbe essere l'immissione manuale dei dati utilizzando PDF come riferimento. Per le tabelle di piccole dimensioni, ciò richiede meno tempo rispetto al tentativo di forzare uno strumento automatizzato a produrre un risultato pulito e quindi correggere manualmente tutti gli errori.
Prova PDF in Excel
Nessuna installazione necessaria. Funziona direttamente nel tuo browser.
