Plik PDF z tabelą danych wygląda na łatwy do skopiowania do programu Excel — dopóki go nie wypróbujesz i nie zauważysz, że dane są pomieszane w jednej kolumnie, z podziałami wierszy w niewłaściwych miejscach lub z połączonymi komórkami, które nie odpowiadają oryginalnej strukturze tabeli. Czyste pobieranie danych tabeli z PDF do Excela wymaga wiedzy, która metoda działa dla konkretnego typu PDF.

Dlaczego kopiowanie i wklejanie zwykle daje kiepskie rezultaty
PDF przechowuje zawartość tabeli jako tekst pozycjonowany — pojedyncze elementy tekstowe umieszczone na stronie pod określonymi współrzędnymi, a nie jako ustrukturyzowane dane tabeli zawierające wiersze i kolumny. Kopiując i wklejając z pliku PDF, kopiujesz tekst w kolejności, w jakiej pojawia się w wewnętrznej strukturze pliku, która może nie odpowiadać kolejności czytania wizualnego. Tabela z trzema kolumnami i dziesięcioma wierszami może zostać wklejona jako trzydzieści wierszy tekstu bez separacji kolumn.
Niektóre przeglądarki PDF radzą sobie z wykrywaniem tabel podczas wklejania lepiej niż inne. Kopia programu Adobe Acrobat Reader zwykle daje lepsze wyniki niż przeglądarki oparte na przeglądarce. Jednak w przypadku złożonych tabel metoda kopiowania i wklejania rzadko jest wystarczająco czysta, aby można było jej używać bez znacznego ręcznego czyszczenia.
Wypróbuj PDF do Excela
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
Najlepsza metoda: bezpośrednia konwersja PDF do programu Excel
Dedykowany konwerter PDF do Excel analizuje układ PDF, identyfikuje struktury tabel i mapuje zawartość do komórek arkusza kalkulacyjnego. Rezultatem jest plik Excel, w którym wiersze i kolumny tabeli odpowiadają oryginalnemu układowi PDF — znacznie czystsze niż kopiowanie i wklejanie.
Narzędzie WukongPDF do PDF do Excela pod adresem www.wukongpdf.com radzi sobie z tym: prześlij PDF, pobierz plik Excel. W przypadku cyfrowych plików PDF z przejrzystą strukturą tabeli konwersja jest zwykle wystarczająco czysta, aby można ją było zastosować przy minimalnej korekcie. W przypadku złożonych tabel ze scalonymi komórkami, zagnieżdżonymi nagłówkami lub nieregularną strukturą nadal konieczne jest ręczne czyszczenie, ale w znacznie mniejszym stopniu niż w przypadku kopiowania i wklejania.
Zeskanowane PDF: Najpierw OCR, potem konwertuj
Jeśli PDF zawierający tabelę jest skanem — obrazem strony, a nie dokumentem cyfrowym — kopiowanie i wklejanie w ogóle nie zadziała (nie ma tekstu do skopiowania), a bezpośrednia konwersja da słabe wyniki. Zeskanowane tabele wymagają najpierw przetwarzania OCR w celu wyodrębnienia prawdziwego tekstu, a następnie tekst należy zinterpretować jako strukturę tabeli.
Niektóre konwertery PDF na Excel automatycznie stosują OCR po wykryciu zeskanowanego dokumentu. Inne wymagają najpierw uruchomienia OCR, a następnie konwersji. Przed przystąpieniem do konwersji sprawdź jakość skanowania — tabele z wyraźnymi granicami wierszy i kolumn konwertują lepiej niż te z słabymi liniami lub nieregularnymi odstępami.
Adobe Acrobat Pro: Eksport do Excela
Program Adobe Acrobat Pro ma wbudowaną funkcję eksportu do programu Excel (Plik > Eksportuj do > Arkusz kalkulacyjny > Skoroszyt programu Microsoft Excel). Jest to jedno z najdokładniejszych dostępnych narzędzi do wyodrębniania tabel — algorytm wykrywania tabel programu Acrobat jest dojrzały i obsługuje szeroką gamę typów tabel.
Eksport tworzy plik Excel, w którym każda tabela na każdej stronie jest umieszczana w oddzielnym arkuszu lub sekcji. Złożone wielostronicowe tabele, tabele z powtarzającymi się nagłówkami i tabele ze scalonymi komórkami są obsługiwane dość dobrze. Jeśli masz dostępny program Acrobat Pro, jest to najwyższej jakości opcja wyodrębniania tabel.
Kiedy jedyną opcją jest kopiowanie i wklejanie — jak to wyczyścić
Jeśli narzędzie do konwersji nie jest dostępne i konieczne jest użycie funkcji kopiuj-wklej, poniższe kroki minimalizują konieczność czyszczenia:
- W programie Adobe Reader zaznacz tekst tabeli i użyj opcji Edycja > Kopiuj z formatowaniem, jeśli jest dostępne — pozwala to zachować większą część struktury tabelarycznej niż zwykła kopia
- Najpierw wklej do edytora tekstu (Notatnik, TextEdit), a nie bezpośrednio do Excela — pozwala to zobaczyć surową strukturę bez komplikowania formatowania komórek w Excelu
- Skopiuj tekst z edytora tekstu i wklej do programu Excel, używając opcji Wklej specjalnie > Tekst
- Użyj funkcji programu Excel „Tekst na kolumny” (Dane > Tekst na kolumny), aby podzielić wklejone dane na osobne kolumny w oparciu o ogranicznik lub stałą szerokość
Kiedy żadne narzędzie nie daje czystych rezultatów
Niektóre tabele są naprawdę trudne w przypadku narzędzi zautomatyzowanych — tabele zagnieżdżone w tabelach, tabele ze złożonymi wzorami scalonych komórek, tabele obejmujące wiele stron z powtarzającymi się nagłówkami lub tabele, w których dane mają strukturę wizualną bez formalnych znaczników tabeli w pliku PDF. W tym przypadku najbardziej praktycznym podejściem może być ręczne wprowadzanie danych przy użyciu pliku PDF jako odniesienia. W przypadku małych tabel zajmuje to mniej czasu niż próba wymuszenia, aby zautomatyzowane narzędzie uzyskało czysty wynik, a następnie ręczne naprawienie wszystkich błędów.
Wypróbuj PDF do Excela
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
