4 powody, dla których zeskanowanego pliku PDF nie można przeszukiwać (i jak to naprawić)

Skanujesz dokument, otwierasz go w przeglądarce plików PDF i próbujesz wyszukać słowo – nic. Lub próbujesz zaznaczyć wiersz tekstu, a kursor po prostu go przeskakuje. Plik wygląda jak plik PDF, ale zachowuje się jak zdjęcie. Jest to jedna z najczęstszych frustracji związanych ze zeskanowanymi dokumentami i istnieją konkretne powody, dla których tak się dzieje. Oto cztery z nich wraz ze wskazówkami, jak naprawić każdy z nich.

4 Reasons Your Scanned PDF Is Not Searchable (And How to Fix It)

1. Skaner zapisał go jako obraz, a nie tekst PDF

Jest to najczęstsza przyczyna. Kiedy skaner przechwytuje dokument fizyczny, robi zdjęcie strony. Jeśli oprogramowanie skanujące nie korzysta z OCR (optycznego rozpoznawania znaków) w momencie zapisywania, po prostu zawija zdjęcie do kontenera PDF. Wynik wygląda dokładnie jak zwykły plik PDF, ale nie zawiera żadnego tekstu — tylko piksele ułożone tak, aby wyglądały jak litery.

Możesz to potwierdzić, naciskając Ctrl+A (lub Cmd+A na komputerze Mac) w przeglądarce plików PDF. Jeśli nic nie zostanie zaznaczone lub cała strona zostanie zaznaczona jako pojedynczy blok obrazu, masz do czynienia z plikiem PDF zawierającym wyłącznie obraz.

Rozwiązanie: uruchom plik PDF za pomocą narzędzia OCR PDF. OCR odczytuje obraz, rozpoznaje znaki i osadza w pliku prawdziwy, możliwy do przeszukiwania tekst. Służy do tego narzędzie OCR firmy WukongPDF pod adresem www.wukongpdf.com — prześlij zeskanowany plik PDF, pozwól na uruchomienie procesu OCR i pobierz wersję, w której tekst można w pełni przeszukiwać i wybierać.

Wypróbuj Ocr

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

2. Jakość skanowania jest zbyt niska, aby funkcja OCR działała prawidłowo

OCR to nie magia — działa poprzez analizę wzorów pikseli i dopasowywanie ich do znanych kształtów znaków. Jeśli skan jest rozmyty, przekrzywiony, zbyt ciemny lub zarejestrowany w bardzo niskiej rozdzielczości, silnik OCR ma trudności z dokładnym rozróżnieniem liter. Rezultatem jest zniekształcony tekst, brakujące znaki lub plik, którego nadal nie można poprawnie przeszukać, ponieważ rozpoznany tekst nie pasuje do treści na stronie.

Minimalna rozdzielczość zapewniająca niezawodny OCR wynosi zazwyczaj 300 DPI. Poniżej tego dokładność zauważalnie spada. Przekrzywione strony — gdy dokument został umieszczony w skanerze pod niewielkim kątem — również powodują problemy, ponieważ silniki OCR oczekują poziomych linii tekstu.

Rozwiązanie: jeśli możesz ponownie zeskanować, zrób to w rozdzielczości 300 DPI lub wyższej, umieszczając dokument płasko i prosto. Jeśli ponowne skanowanie nie wchodzi w grę, niektóre narzędzia OCR obejmują wstępne przetwarzanie obrazu, które może przekosić i ulepszyć skan przed rozpoznaniem — poszukaj tej opcji, zanim zrezygnujesz ze skanu o niskiej jakości.

3. Dokument jest w języku, którego silnik OCR nie obsługuje

Silniki OCR są szkolone w zakresie określonych języków i zestawów znaków. Silnik zoptymalizowany dla języków z alfabetem łacińskim (angielski, francuski, hiszpański, niemiecki) będzie miał problemy z arabskim, chińskim, japońskim, koreańskim lub językami ze znakami specjalnymi. Nawet w alfabecie łacińskim dokumenty zawierające częste użycie znaków specjalnych, znaków diakrytycznych lub nietypowych czcionek mogą powodować problemy z rozpoznawaniem.

Poprawka: użyj narzędzia OCR, które wyraźnie obsługuje język Twojego dokumentu. Większość nowoczesnych narzędzi OCR PDF wyświetla listę obsługiwanych języków — sprawdź przed przetwarzaniem. Jeśli po zastosowaniu prawidłowego ustawienia języka dokładność nadal jest niska, czynnikiem ograniczającym jest prawdopodobnie jakość skanowania.

4. Plik PDF ma ustawienia zabezpieczeń blokujące wyodrębnianie tekstu

Niektóre pliki PDF są celowo skonfigurowane tak, aby uniemożliwić kopiowanie lub wyodrębnianie tekstu. Odbywa się to poprzez ustawienia uprawnień plików PDF — dokument może otwierać się poprawnie i wyglądać zupełnie normalnie, ale narzędzie do zaznaczania tekstu jest wyłączone, a wyszukiwanie nie zwraca żadnych wyników, mimo że tekst technicznie tam jest.

Dzieje się tak rzadziej w przypadku zeskanowanych dokumentów, a częściej w przypadku plików PDF, które zostały celowo zablokowane przez twórcę — niektórych dokumentów prawnych, chronionych formularzy lub plików pochodzących z organizacji stosujących rygorystyczne zasady kontroli dokumentów.

Możesz sprawdzić, czy to jest problem, przechodząc do właściwości dokumentu w przeglądarce plików PDF (zwykle w obszarze Plik > Właściwości > Bezpieczeństwo) i sprawdzając, jakie uprawnienia są włączone. Jeśli kopiowanie treści jest wymienione jako niedozwolone, to jest Twoja odpowiedź.

Większość zeskanowanych plików PDF można naprawić w jednym kroku

W większości przypadków zeskanowany plik PDF, którego nie można przeszukiwać, wymaga jedynie zastosowania OCR. Problem z jakością skanowania jest drugą najczęstszą przyczyną i często można go naprawić. Uruchom plik za pomocą narzędzia OCR PDF firmy WukongPDF pod adresem www.wukongpdf.com — to najszybszy sposób przejścia od pliku PDF z niemożliwym do przeszukiwania obrazem do dokumentu, w którym rzeczywiście znajdziesz to, czego szukasz.

Wypróbuj Ocr

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →