Dlaczego mojego pliku PDF nie można przeszukiwać?

PDF, w którym Ctrl+F nic nie znajduje, w którym nie można zaznaczać ani kopiować tekstu i w którym kliknięcie tekstu rysuje prostokątne pudełko zamiast podświetlać poszczególne słowa — jest to dokument bez warstwy tekstowej. Jest przechowywany jako obraz, a nie jako tekst, co oznacza, że czytelnik może zobaczyć znaki, ale oprogramowanie nie może zinterpretować ich jako znaków.

Dlaczego niektóre PDF nie mają warstwy tekstowej

Najczęstszą przyczyną jest skanowanie. Po zeskanowaniu dokumentu fizycznego i zapisaniu go w formacie PDF efektem jest fotografia strony zawinięta w pojemnik PDF. Skaner rejestruje wygląd dokumentu jako obraz, ale nie wie, jakie są znaki. Bez osobnego etapu OCR służącego do interpretacji obrazu i dodania danych tekstowych, plik PDF jest w całości oparty na obrazie.

Inne przyczyny: PDF wyeksportowane z określonego oprogramowania do projektowania, które traktuje całą zawartość jako grafikę, a nie zachowuje tekst jako tekst, PDF pliki, w których tekst został konwertowany na kontury (technika projektowania, która poprawia wygląd, ale niszczy warstwę tekstową) oraz PDF utworzone przez fotografowanie dokumentów telefonem bez żadnej aplikacji skanującej obsługującej OCR.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Potwierdzanie problemu

Najszybszy test: spróbuj wybrać słowo, klikając i przeciągając po nim. Jeśli podświetlone zostaną pojedyncze słowa lub znaki, plik PDF zawiera warstwę tekstową i można go przeszukiwać — w takim przypadku coś innego powoduje niepowodzenie wyszukiwania (zobacz sekcję poniżej dotyczącą uszkodzonych warstw tekstu). Jeśli cały obszar strony zostanie zaznaczony jako prostokąt, niezależnie od tego, gdzie przeciągniesz, strona zostanie zapisana jako obraz bez tekstu.

Kontrola dodatkowa: naciśnij Ctrl+A, aby zaznaczyć wszystko. W dokumencie z warstwą tekstową powoduje to zaznaczenie całego tekstu i można go skopiować. W pliku PDF zawierającym wyłącznie obraz naciśnięcie klawiszy Ctrl+A powoduje zaznaczenie strony jako całego obiektu — podczas kopiowania żaden tekst nie jest umieszczany w schowku.

Dodawanie warstwy tekstowej za pomocą OCR

OCR (optyczne rozpoznawanie znaków) odczytuje obraz na każdej stronie i dodaje ukrytą warstwę tekstową zawierającą rozpoznane znaki. Wygląd dokumentu nie zmienia się — nadal wygląda jak oryginalny skan — ale tekst można zaznaczać, kopiować i przeszukiwać.

Narzędzie WukongPDF OCR PDF firmy WukongPDF obsługuje to w przeglądarce: prześlij zeskanowany plik PDF, uruchom OCR i pobierz wersję z możliwością wyszukiwania. W przypadku czystych skanów standardowego tekstu drukowanego o wysokim kontraście dokładność jest na tyle wysoka, że wynikowa warstwa tekstowa jest niezawodna podczas wyszukiwania. Otwórz przetworzony plik i naciśnij Ctrl+F, aby to sprawdzić — wyszukiwanie słowa, które wyraźnie pojawia się w dokumencie, powinno je natychmiast znaleźć.

Kiedy warstwa tekstowa istnieje, ale wyszukiwanie nadal nie działa

Czasami PDF zawiera tekst, który można zaznaczyć, ale Ctrl+F nadal nie może go znaleźć. Zwykle sprowadza się to do jednej z trzech rzeczy. Po pierwsze, kodowanie czcionek może być uszkodzone — plik PDF zawiera dane tekstowe, ale tabela mapowania znaków jest uszkodzona, więc przeglądarka może coś zaznaczyć, ale nie wie, które znaki są które. Po drugie, warstwa tekstowa z OCR może zawierać błędy w konkretnym wyszukiwanym słowie. Po trzecie, niektóre pliki PDF używają znaków Unicode lub specjalnego kodowania, które nie pasują do standardowych zachowań wyszukiwania.

W przypadku problemów z kodowaniem uruchomienie PDF za pomocą konwertera PDF w celu wyodrębnienia i ponownego osadzenia tekstu czasami rozwiązuje problem z mapowaniem znaków. Konwersja do formatu Word, która wymusza na tekście czysty etap ponownego kodowania, a następnie eksport z powrotem do formatu PDF może również rozwiązać problemy z wyszukiwaniem spowodowane uszkodzonym kodowaniem czcionek.

Zapobieganie problemom w przyszłych skanach

Jeśli regularnie skanujesz dokumenty, które wymagają możliwości przeszukiwania, włącz OCR do procesu skanowania, zamiast dodawać go później. Większość nowoczesnych programów skanerów ma opcję automatycznego stosowania OCR i bezpośredniego zapisywania przeszukiwalnego pliku PDF. Aplikacje do skanowania telefonów, takie jak Microsoft Lens, Adobe Scan i funkcja aparatu na Dysku Google, domyślnie stosują OCR i od samego początku tworzą pliki PDF z możliwością przeszukiwania — bez osobnego etapu przetwarzania.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →