Jak sprawić, by plik PDF można było przeszukiwać

Plik PDF z możliwością przeszukiwania to taki, w którym tekst jest przechowywany w pliku jako rzeczywiste znaki, a nie jako obraz. Po naciśnięciu klawiszy Ctrl+F i wpisaniu słowa przeglądarka będzie mogła je znaleźć. Po zaznaczeniu tekstu i skopiowaniu go kopiowane są prawdziwe znaki. W przypadku cyfrowo utworzonych plików PDF jest to automatyczne. W przypadku zeskanowanych plików PDF potrzebny jest OCR, aby dodać warstwę tekstową.

Jak sprawdzić, czy PDF można już przeszukiwać

Otwórz plik PDF i spróbuj wybrać słowo, klikając i przeciągając. Jeśli podświetlone zostaną poszczególne słowa i możesz je skopiować, oznacza to, że plik PDF ma już warstwę tekstową — można ją przeszukiwać. Jeśli kliknięcie spowoduje narysowanie prostokątnego zaznaczenia na całym obszarze zamiast zaznaczania określonych słów, strona zostanie zapisana jako obraz bez warstwy tekstowej. Właśnie wtedy potrzebujesz OCR.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Uruchamianie OCR w celu dodania warstwy tekstowej

Narzędzie OCR PDF firmy WukongPDF przetwarza zeskanowane pliki PDF w przeglądarce i zwraca wersję, w której tekst jest rozpoznawany i osadzany obok oryginalnego zeskanowanego obrazu. Strona wygląda identycznie — ten sam wygląd, ta sama jakość skanowania — ale Ctrl+F umożliwia teraz zaznaczanie i kopiowanie słów i tekstu. Prześlij zeskanowany plik PDF, uruchom OCR i pobierz wersję z możliwością wyszukiwania.

Adobe Acrobat Pro ma również solidny silnik OCR w obszarze Narzędzia → Skanuj i amp; OCR → Rozpoznaj tekst. Jego dokładność w przypadku trudnych skanów — wyblakły tekst, nietypowe czcionki, pisma inne niż łacińskie — jest ogólnie lepsza niż w przypadku narzędzi przeglądarkowych, chociaż w przypadku standardowego drukowanego tekstu różnica jest niewielka. Jeśli przetwarzasz duże ilości dokumentów, gdzie liczy się dokładność, warto zainwestować w OCR programu Acrobat.

OCR Dokładność i obsługa języków

Dokładność rozpoznawania OCR zależy w dużej mierze od jakości skanowania. Czysty skan o wysokim kontraście profesjonalnie wydrukowanego dokumentu w rozdzielczości 200 DPI lub wyższej zazwyczaj konwertuje z dokładnością znaków na poziomie 98–99%, co w praktyce jest zasadniczo wolne od błędów. Wyblakła kserokopia, skan wykonany pod kątem lub dokument z odręcznymi adnotacjami będzie zawierał więcej błędów wymagających ręcznej korekty.

Większość narzędzi OCR automatycznie wykrywa język dokumentu i wykorzystuje modele specyficzne dla języka, aby poprawić dokładność. Jeśli dokument stale błędnie rozpoznaje określone znaki, sprawdź, czy język jest wykrywany prawidłowo — wymuszenie prawidłowego języka w ustawieniach OCR często daje zauważalną różnicę, szczególnie w przypadku dokumentów zawierających znaki akcentowane lub alfabety inne niż łacińskie.

Tworzenie pliku PDF z możliwością przeszukiwania w celu archiwizacji długoterminowej

Organizacje digitalizujące archiwa papierowe często stawiają sobie za główny cel możliwość przeszukiwania — możliwość znalezienia określonego dokumentu lub klauzuli w tysiącach plików po latach. W tym przypadku wynik OCR powinien zostać zapisany w formacie przeznaczonym do długotrwałego przechowywania. PDF/A-3 obsługuje osadzone warstwy tekstowe obok obrazu strony i jest standardem archiwizacji zaprojektowanym specjalnie na potrzeby przeszukiwalnych archiwów dokumentów. Uruchamianie OCR, a następnie konwersja do formatu PDF Kompresja z ustawieniami archiwalnymi zapewnia zarówno możliwość wyszukiwania, jak i długoterminową stabilność formatu.

Nawet niedoskonały OCR jest znacznie lepszy niż brak OCR do celów archiwizacji. Dokument z dokładnością znaków wynoszącą 95% nadal można przeszukiwać — wystarczy wyszukać hasło „faktura”. znajdzie większość faktur, nawet jeśli kilka znaków w niektórych słowach zostało błędnie odczytanych. Idealny OCR jest idealny; funkcjonalny OCR jest nadal znacznie bardziej przydatny niż skanowanie bez warstwy tekstowej.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →