Dlaczego nie mogę wyszukiwać tekstu w moim pliku PDF?

Naciśnięcie klawiszy Ctrl+F w pliku PDF i brak znalezienia niczego — lub znalezienie paska wyszukiwania działa, ale zwraca zero wyników nawet w przypadku słów wyraźnie widocznych na stronie — jest problemem związanym z warstwą tekstową. Plik PDF nie zawiera tekstu, który można przeszukiwać, co oznacza, że patrzysz na obraz, a nie na prawdziwe postacie. Rozwiązaniem jest OCR, który działa szybciej, niż większość ludzi się spodziewa.

Why Can't I Search for Text Inside My PDF?

Dlaczego niektóre pliki PDF nie zawierają tekstu, który można przeszukiwać

Plik PDF może zawierać dwa zasadniczo różne typy treści. Pierwszy to prawdziwy tekst — znaki przechowywane jako dane tekstowe, które można wyszukiwać, zaznaczać i kopiować. Drugi to dane obrazu — fotografia strony, na której litery to po prostu piksele, wizualnie nie do odróżnienia od prawdziwego tekstu na ekranie, ale strukturalnie zupełnie inne.

Zeskanowane dokumenty są zawsze oparte na obrazie — skaner fotografuje stronę. Jednak nawet dokumenty utworzone cyfrowo mogą zawierać wyłącznie obrazy, jeśli zostały przekonwertowane przez spłaszczenie zawartości, wyeksportowane z określonego oprogramowania do projektowania bez zachowania tekstu lub zapisane w ramach procesów drukowania do obrazu. Wynik wizualny wygląda identycznie; inna jest tylko podstawowa struktura danych.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Jak sprawdzić, czy Twój PDF zawiera warstwę tekstową

Otwórz plik PDF i spróbuj kliknąć i przeciągnąć, aby zaznaczyć pojedyncze słowo. Jeśli możesz wyróżnić pojedyncze słowa, a zaznaczony tekst zostanie podświetlony na niebiesko (lub kolorem zaznaczonym przez przeglądarkę), plik PDF zawiera prawdziwą warstwę tekstową i powinien umożliwiać przeszukiwanie. Jeśli kliknięcie i przeciągnięcie powoduje utworzenie prostokątnego pola wyboru nad obrazem strony zamiast podświetlania określonych słów, dokument jest oparty na obrazie.

Drugi test: spróbuj Ctrl+A, aby zaznaczyć wszystko. W formacie tekstowym PDF tekst jest podświetlany w całym dokumencie. W pliku PDF opartym na obrazie nic nie jest zaznaczone w widoczny sposób lub cała strona jest zaznaczana jako pojedynczy blok obrazu.

Poprawka: uruchamianie OCR

OCR (optyczne rozpoznawanie znaków) odczytuje obraz i konwertuje to, co widzi, na znaki tekstowe, dodając warstwę tekstową do pliku PDF. Po OCR dokument można przeszukiwać — Ctrl+F wyszukuje słowa, tekst można zaznaczać i kopiować, a czytniki ekranu mogą interpretować treść.

Narzędzie WukongPDF OCR PDF obsługuje to w przeglądarce. Prześlij plik PDF oparty na obrazie, uruchom OCR i pobierz wersję z możliwością wyszukiwania. Wygląd dokumentu nie zmienia się – strony wyglądają identycznie – ale dane bazowe zawierają teraz warstwę tekstową, z której mogą korzystać narzędzia wyszukiwania i zaznaczania.

Dokładność rozpoznawania OCR zależy od jakości oryginalnego skanu. Czysty, czarny tekst o wysokim kontraście na białym papierze przy rozdzielczości OCR 200+ DPI i dokładności 98–99%. Wyblakły atrament, skany o niskiej rozdzielczości, nietypowe czcionki lub charakter pisma ręcznego powodują więcej błędów. W przypadku większości dokumentów biznesowych pisanych na maszynie wyniki OCR są na tyle czyste, że można je natychmiast wykorzystać.

Kiedy wyszukiwanie nic nie znajdzie pomimo istniejącego tekstu

Mniej powszechna sytuacja: PDF ma prawdziwą warstwę tekstową, zaznaczanie tekstu działa, ale funkcja wyszukiwania nadal nie zwraca żadnych wyników. Zwykle oznacza to, że indeks wyszukiwania przeglądarki PDF nie został jeszcze utworzony. Niektórzy przeglądający tworzą indeks w tle po otwarciu — poczekaj kilka sekund i spróbuj ponownie. Jeśli problem będzie się powtarzał, spróbuj użyć innego zapytania, używając prostszych terminów lub otwórz plik w innej przeglądarce.

Inna przyczyna: warstwa tekstowa istnieje, ale zawiera zniekształcone znaki z powodu problemów z kodowaniem czcionek. Jeśli spróbujesz skopiować zdanie i wkleić je w innym miejscu, a pojawi się ono jako losowe symbole, oznacza to, że kodowanie tekstu jest uszkodzone. OCR również rozwiązuje ten problem — odbudowuje warstwę tekstową od podstaw, czytając treść wizualną, zastępując uszkodzone kodowanie poprawnym tekstem.

Tworzenie przyszłości PDF Zawsze możliwe do przeszukiwania

W przypadku zeskanowanych dokumentów uruchomienie OCR natychmiast po zeskanowaniu oznacza, że każdy zeskanowany plik PDF można przeszukiwać od chwili jego złożenia. Niektóre programy skanerów mają wbudowaną funkcję OCR i stosują ją automatycznie — włącz to ustawienie, jeśli jest dostępne. W przypadku skanerów bez wbudowanego OCR szybkie przejście OCR po zeskanowaniu przed złożeniem wydłuża każdy dokument o kilka sekund i pozwala zaoszczędzić znaczną ilość czasu, gdy trzeba coś znaleźć tygodnie lub miesiące później.

W przypadku dokumentów utworzonych cyfrowo upewnij się, że używasz odpowiedniego eksportu, a nie drukowania do obrazu. Eksportowanie bezpośrednio z programu Word, Dokumentów Google lub dowolnej profesjonalnej aplikacji powoduje automatyczne zachowanie warstwy tekstowej. Problem z możliwością wyszukiwania pojawia się tylko wtedy, gdy proces eksportu rasteryzuje zawartość — co zwykle ma miejsce w przypadku drukowania do PDF przy użyciu określonych sterowników lub w przypadku opcji eksportu, które jawnie spłaszczają dokument.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →