Tak — ale wymaga to dodatkowego kroku w porównaniu z konwersją cyfrowo utworzonego pliku PDF. Zeskanowany plik PDF to obraz, a nie dokument zawierający dane strukturalne, dlatego proces konwersji musi najpierw rozpoznać tekst i liczby na obrazie, zanim będzie można umieścić je w komórkach arkusza kalkulacyjnego. Jeśli to działa dobrze, oszczędność czasu jest znacząca. Jeśli tak się nie stanie, konieczne jest oczyszczenie.

Dlaczego zeskanowane pliki PDF są inne
Cyfrowo utworzony plik PDF przechowuje dane w postaci rzeczywistych znaków — liczb, które można bezpośrednio odczytać i umieścić w komórkach. Zeskanowany plik PDF przechowuje strony jako fotografie. „Liczby” w zeskanowanej tabeli znajdują się piksele, które wyglądają jak cyfry. Aby wyodrębnić je do programu Excel, oprogramowanie musi przyjrzeć się tym pikselom, określić, jakie znaki reprezentują, a następnie ustalić strukturę tabeli — które piksele tworzą wiersze, które kolumny i gdzie znajdują się granice komórek.
Ten proces — optyczne rozpoznawanie znaków w połączeniu z wykrywaniem struktury tabeli — jest bardziej złożony niż zwykła konwersja PDF do Excela i stwarza większe ryzyko błędów.
Wypróbuj PDF do Excela
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
Co wpływa na jakość konwersji
Najważniejszym czynnikiem jest jakość skanowania. Czysty skan wyraźnie wydrukowanej tabeli o wysokim kontraście w rozdzielczości 200+ DPI konwertuje dobrze — funkcja OCR dokładnie odczytuje znaki, a struktura tabeli jest rozpoznawalna. Skan o niskiej rozdzielczości, wyblakły dokument, przekrzywiona strona lub odręczne liczby w dowolnych komórkach dają znacznie gorsze wyniki.
Złożoność struktury tabeli również ma znaczenie. Prosta siatka z wyraźnymi krawędziami i stałą wysokością wierszy konwertuje bardziej niezawodnie niż złożona tabela ze scalonymi komórkami, obejmującymi nagłówki, zagnieżdżonymi tabelami podrzędnymi lub wierszami o różnej wysokości. Prostsza struktura oznacza mniej decyzji, które musi podjąć oprogramowanie do konwersji, i mniej możliwości, aby te decyzje były błędne.
Jak to zrobić
Narzędzie WukongPDF PDF do Excel obsługuje bezpośrednio zeskanowane pliki PDF — etap OCR jest wykonywany automatycznie w ramach konwersji. Prześlij zeskanowany plik PDF, wybierz Excel jako format wyjściowy i pobierz. W przypadku czystych skanów tabel o dobrej strukturze dane wyjściowe są często przydatne przy minimalnym czyszczeniu. Otwórz plik Excel, przejrzyj dane, popraw wszelkie błędy OCR (błędnie odczytane znaki, scalone lub podzielone komórki), a arkusz kalkulacyjny będzie gotowy do użycia.
Adobe Acrobat Pro ma szczególnie silną konwersję zeskanowanego pliku PDF do Excela, z lepszym wykrywaniem tabel niż większość bezpłatnych narzędzi. Jeśli masz do niego dostęp, a dokument jest skomplikowany, warto go wykorzystać do wstępnej konwersji, nawet jeśli robisz porządki gdzie indziej.
Co sprawdzić po konwersji
Nigdy nie ufaj zeskanowanej konwersji PDF bez sprawdzenia, szczególnie w przypadku danych liczbowych. OCR często myli pewne pary znaków: 0 i O, 1 i l, 5 i S, 8 i B. Tabela finansowa, w której niektóre zera zostały odczytane jako litera O, będzie zawierała uszkodzone formuły i nieprawidłowe sumy. Zanim wykorzystasz dane do jakichkolwiek ważnych celów, porównaj najważniejsze dane z oryginalnym skanem.
Sprawdź wyrównanie kolumn: konwersja czasami umieszcza dane w niewłaściwej kolumnie, gdy oryginalna tabela miała nieregularne odstępy lub komórki były scalone. Porównaj strukturę danych wyjściowych programu Excel z oryginalnym skanem strona po stronie, a nie tylko sprawdzaj pojedyncze wartości.
Kiedy wpis ręczny jest szybszy
W przypadku bardzo krótkich tabel (poniżej 20 wierszy) lub tabel o złożonej strukturze, które słabo konwertują, ręczne wprowadzanie danych jest czasami szybsze niż konwersja i czyszczenie. Pisanie tabeli składającej się z 10 wierszy i 5 kolumn zajmuje około trzech minut; jeśli konwersja daje wynik wymagający znacznej korekty, spędziłeś więcej czasu niż w przypadku bezpośredniego wpisu.
Podejście polegające na konwersji opłaca się najlepiej w przypadku długich tabel — dziesiątek lub setek wierszy, w przypadku których ręczne wprowadzanie zajęłoby wiele godzin. W tym przypadku nawet niedoskonała konwersja z czyszczeniem jest prawie zawsze szybsza niż rozpoczynanie od zera.
Wypróbuj PDF do Excela
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
