Tips & Tricks

Jak odzyskać tekst z uszkodzonego pliku PDF

Jedyną kopią umowy sprzed trzech lat jest plik PDF, w którym teraz pojawia się komunikat o błędzie. Raport badawczy pobrany z nieistniejącej już witryny internetowej nie wyświetli niczego poza stroną czwartą. Umowa podpisana przez klienta została zapisana na dysku, na którym wystąpiły błędy, a odzyskany plik jest częściowo uszkodzony. Sytuacje te są stresujące, ale nie zawsze są beznadziejne. Odzyskiwanie tekstu z uszkodzonych plików PDF jest możliwe częściej, niż się spodziewamy — pytanie brzmi, które podejście zastosować w pierwszej kolejności.

How to Recover Text From a Damaged PDF

Zrozum, z jakim rodzajem szkód masz do czynienia

Nie wszystkie uszkodzenia PDF są takie same, a podejście do odzyskiwania zależy od tego, co poszło nie tak. Kilka krótkich obserwacji wiele ci powie:

  • Plik w ogóle się nie otwiera: nagłówek pliku lub struktura wewnętrzna są uszkodzone. Narzędzie do naprawy musi zrekonstruować strukturę pliku, zanim będzie można uzyskać dostęp do jakiejkolwiek zawartości.
  • Plik otwiera się, ale niektóre strony są puste lub ich brakuje: częściowe uszkodzenie — struktura pliku jest nienaruszona, ale niektóre obiekty zawartości są uszkodzone lub ich brakuje. Odzyskiwanie może odzyskać nieuszkodzone części.
  • Tekst wyświetlany jako symbole lub zniekształcone znaki: uszkodzone kodowanie czcionki. Dane tekstowe mogą pozostać nienaruszone, ale mapowanie między znakami i glifami jest uszkodzone.
  • Plik jest bardzo mały (kilka KB, podczas gdy powinien być znacznie większy): niekompletne pobieranie lub przesyłanie. Plik nigdy nie został w całości otrzymany — uzyskanie nowej kopii ze źródła to naprawa, a nie naprawa.
WukongPDF

Wypróbuj naprawę PDF

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Wypróbuj inną przeglądarkę PDF, zanim zaczniesz robić cokolwiek innego

Niektóre pliki, które nie działają w jednej przeglądarce, otwierają się pomyślnie w innej. Adobe Reader, wbudowana przeglądarka PDF przeglądarki Chrome, Apple Preview, Foxit i Sumatra PDF korzystają z różnych silników renderujących. Plik, którego jeden silnik nie może przeanalizować, może mieścić się w granicach tolerancji odzyskiwania innego mechanizmu.

Jeśli jakakolwiek przeglądarka otworzy plik — choćby częściowo — natychmiast spróbuj skopiować cały widoczny tekst (Ctrl+A, a następnie Ctrl+C) i wkleić go do dokumentu programu Word. Przechwytuje to cały tekst dostępny w bieżącym stanie pliku, niezależnie od tego, czy strukturę pliku można odzyskać. Niedoskonałe wyodrębnienie tekstu jest lepsze niż nic i może przechwycić większość treści nawet ze znacznie uszkodzonego pliku.

Użyj narzędzia naprawczego PDF

Dedykowane narzędzie Repair PDF próbuje zrekonstruować wewnętrzną strukturę pliku, skanując uszkodzony plik w poszukiwaniu możliwych do odzyskania obiektów zawartości — strumieni tekstu, obrazów, definicji stron — i odbudowując prawidłowy plik PDF ze wszystkiego, co znajdzie. Różni się to od zwykłego otwierania pliku; narzędzia naprawcze wyszukują i obchodzą uszkodzenia strukturalne.

Narzędzie naprawcze WukongPDF pod adresem www.wukongpdf.com sobie z tym radzi — prześlij uszkodzony plik, poczekaj, aż rozpocznie się proces naprawy i pobierz wszystko, co udało się odzyskać. W przypadku częściowo uszkodzonych plików, w których większość zawartości jest nienaruszona, ale struktura pliku jest uszkodzona, często tworzy to w pełni czytelny plik PDF. W przypadku poważnie uszkodzonych plików może odzyskać część zawartości. Wynik zależy od tego, jaka część podstawowych danych przetrwała uszkodzenie.

Wyodrębnij tekst bezpośrednio z danych pliku

Pliki PDF przechowują tekst w strumieniach w strukturze pliku. Nawet jeśli struktura PDF jest zbyt uszkodzona, aby przeglądarka mogła wyrenderować dokument, strumienie tekstu mogą nadal pozostać nienaruszone i czytelne przy użyciu odpowiednich narzędzi. W przypadku użytkowników o pewnych umiejętnościach technicznych otwarcie pliku PDF w edytorze tekstu (a nie w przeglądarce PDF) może ujawnić czytelną treść tekstową osadzoną w nieprzetworzonych danych pliku — poszukaj ciągów czytelnych znaków w zawartości binarnej.

Narzędzia wiersza poleceń, takie jak pdftotext (część pakietu poppler) mogą wyodrębniać tekst z plików PDF, które nie otwierają się w standardowych przeglądarkach. Uruchomienie pdftotext na uszkodzonym pliku czasami pozwala odzyskać znaczną zawartość tekstu, nawet jeśli renderowanie wizualne nie powiedzie się całkowicie. To podejście wymaga wygody korzystania z narzędzi wiersza poleceń, ale umożliwia dostęp do treści, których brakuje narzędziom GUI.

Przypadek specjalny: zeskanowany uszkodzony PDFs

Zeskanowane pliki PDF przechowują treść w postaci obrazów, a nie tekstu. Jeśli dane obrazu w zeskanowanym pliku PDF są uszkodzone, narzędzia do wyodrębniania tekstu nie pomogą — nie ma warstwy tekstowej do wyodrębnienia. Treścią do odzyskania są same dane obrazu.

W przypadku częściowo uszkodzonych zeskanowanych plików PDF narzędzie naprawcze, które odzyskuje obiekty obrazu, może utworzyć czytelny dokument nawet w przypadku uszkodzenia struktury pliku. Po naprawie uruchomienie OCR odzyskanego dokumentu konwertuje zawartość obrazu na tekst, który można przeszukiwać, dzięki czemu odzyskana wersja jest bardziej użyteczna niż oryginalny skan, którego nie można przeszukiwać.

Co może, a czego nie może wykonać odzyskiwanie

Nie gwarantuje się odzyskania tekstu z uszkodzonych plików PDF. Skuteczność zależy od rodzaju i rozmiaru uszkodzeń:

  • Uszkodzenia strukturalne przy nienaruszonej zawartości: wysoki współczynnik odzyskiwania — zawartość tam jest, ale plik po prostu nie może jej poprawnie przedstawić
  • Częściowe uszkodzenie treści: częściowe przywrócenie — niektóre strony lub sekcje można odzyskać, inne utracone
  • Nadpisane sektory pamięci: niski poziom odzyskiwania lub jego brak — jeśli podstawowe dane zostały nadpisane, żadne narzędzie nie będzie w stanie ich odtworzyć
  • Pobieranie niekompletne (plik jest po prostu obcięty): pobierz nową kopię, zamiast próbować naprawy

Lekcja na przyszłość: w przypadku każdego ważnego dokumentu przechowuj wiele kopii w różnych lokalizacjach. Kopia zapasowa na innym dysku, kopia w chmurze, e-mail do siebie — każdy z nich zapewnia ścieżkę odzyskiwania, która sprawia, że ​​narzędzia do naprawy PDF stają się niepotrzebne. Najlepszy scenariusz Naprawa PDF to taki, którego nigdy nie będziesz musiał używać.

WukongPDF

Wypróbuj naprawę PDF

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →