Tips & Tricks

Jak skopiować tabelę z pliku PDF do programu Excel

Plik PDF z tabelą danych wygląda na łatwy do skopiowania do programu Excel — dopóki go nie wypróbujesz i nie zauważysz, że dane są pomieszane w jednej kolumnie, z podziałami wierszy w niewłaściwych miejscach lub z połączonymi komórkami, które nie odpowiadają oryginalnej strukturze tabeli. Czyste pobieranie danych tabeli z PDF do Excela wymaga wiedzy, która metoda działa dla konkretnego typu PDF.

How to Copy a Table From a PDF to Excel

Dlaczego kopiowanie i wklejanie zwykle daje kiepskie rezultaty

PDF przechowuje zawartość tabeli jako tekst pozycjonowany — pojedyncze elementy tekstowe umieszczone na stronie pod określonymi współrzędnymi, a nie jako ustrukturyzowane dane tabeli zawierające wiersze i kolumny. Kopiując i wklejając z pliku PDF, kopiujesz tekst w kolejności, w jakiej pojawia się w wewnętrznej strukturze pliku, która może nie odpowiadać kolejności czytania wizualnego. Tabela z trzema kolumnami i dziesięcioma wierszami może zostać wklejona jako trzydzieści wierszy tekstu bez separacji kolumn.

Niektóre przeglądarki PDF radzą sobie z wykrywaniem tabel podczas wklejania lepiej niż inne. Kopia programu Adobe Acrobat Reader zwykle daje lepsze wyniki niż przeglądarki oparte na przeglądarce. Jednak w przypadku złożonych tabel metoda kopiowania i wklejania rzadko jest wystarczająco czysta, aby można było jej używać bez znacznego ręcznego czyszczenia.

WukongPDF

Wypróbuj PDF do Excela

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Najlepsza metoda: bezpośrednia konwersja PDF do programu Excel

Dedykowany konwerter PDF do Excel analizuje układ PDF, identyfikuje struktury tabel i mapuje zawartość do komórek arkusza kalkulacyjnego. Rezultatem jest plik Excel, w którym wiersze i kolumny tabeli odpowiadają oryginalnemu układowi PDF — znacznie czystsze niż kopiowanie i wklejanie.

Narzędzie WukongPDF do PDF do Excela pod adresem www.wukongpdf.com radzi sobie z tym: prześlij PDF, pobierz plik Excel. W przypadku cyfrowych plików PDF z przejrzystą strukturą tabeli konwersja jest zwykle wystarczająco czysta, aby można ją było zastosować przy minimalnej korekcie. W przypadku złożonych tabel ze scalonymi komórkami, zagnieżdżonymi nagłówkami lub nieregularną strukturą nadal konieczne jest ręczne czyszczenie, ale w znacznie mniejszym stopniu niż w przypadku kopiowania i wklejania.

Zeskanowane PDF: Najpierw OCR, potem konwertuj

Jeśli PDF zawierający tabelę jest skanem — obrazem strony, a nie dokumentem cyfrowym — kopiowanie i wklejanie w ogóle nie zadziała (nie ma tekstu do skopiowania), a bezpośrednia konwersja da słabe wyniki. Zeskanowane tabele wymagają najpierw przetwarzania OCR w celu wyodrębnienia prawdziwego tekstu, a następnie tekst należy zinterpretować jako strukturę tabeli.

Niektóre konwertery PDF na Excel automatycznie stosują OCR po wykryciu zeskanowanego dokumentu. Inne wymagają najpierw uruchomienia OCR, a następnie konwersji. Przed przystąpieniem do konwersji sprawdź jakość skanowania — tabele z wyraźnymi granicami wierszy i kolumn konwertują lepiej niż te z słabymi liniami lub nieregularnymi odstępami.

Adobe Acrobat Pro: Eksport do Excela

Program Adobe Acrobat Pro ma wbudowaną funkcję eksportu do programu Excel (Plik > Eksportuj do > Arkusz kalkulacyjny > Skoroszyt programu Microsoft Excel). Jest to jedno z najdokładniejszych dostępnych narzędzi do wyodrębniania tabel — algorytm wykrywania tabel programu Acrobat jest dojrzały i obsługuje szeroką gamę typów tabel.

Eksport tworzy plik Excel, w którym każda tabela na każdej stronie jest umieszczana w oddzielnym arkuszu lub sekcji. Złożone wielostronicowe tabele, tabele z powtarzającymi się nagłówkami i tabele ze scalonymi komórkami są obsługiwane dość dobrze. Jeśli masz dostępny program Acrobat Pro, jest to najwyższej jakości opcja wyodrębniania tabel.

Kiedy jedyną opcją jest kopiowanie i wklejanie — jak to wyczyścić

Jeśli narzędzie do konwersji nie jest dostępne i konieczne jest użycie funkcji kopiuj-wklej, poniższe kroki minimalizują konieczność czyszczenia:

  • W programie Adobe Reader zaznacz tekst tabeli i użyj opcji Edycja > Kopiuj z formatowaniem, jeśli jest dostępne — pozwala to zachować większą część struktury tabelarycznej niż zwykła kopia
  • Najpierw wklej do edytora tekstu (Notatnik, TextEdit), a nie bezpośrednio do Excela — pozwala to zobaczyć surową strukturę bez komplikowania formatowania komórek w Excelu
  • Skopiuj tekst z edytora tekstu i wklej do programu Excel, używając opcji Wklej specjalnie > Tekst
  • Użyj funkcji programu Excel „Tekst na kolumny” (Dane > Tekst na kolumny), aby podzielić wklejone dane na osobne kolumny w oparciu o ogranicznik lub stałą szerokość

Kiedy żadne narzędzie nie daje czystych rezultatów

Niektóre tabele są naprawdę trudne w przypadku narzędzi zautomatyzowanych — tabele zagnieżdżone w tabelach, tabele ze złożonymi wzorami scalonych komórek, tabele obejmujące wiele stron z powtarzającymi się nagłówkami lub tabele, w których dane mają strukturę wizualną bez formalnych znaczników tabeli w pliku PDF. W tym przypadku najbardziej praktycznym podejściem może być ręczne wprowadzanie danych przy użyciu pliku PDF jako odniesienia. W przypadku małych tabel zajmuje to mniej czasu niż próba wymuszenia, aby zautomatyzowane narzędzie uzyskało czysty wynik, a następnie ręczne naprawienie wszystkich błędów.

WukongPDF

Wypróbuj PDF do Excela

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →