Jak zaznaczyć tekst w zeskanowanym pliku PDF

Zeskanowany plik PDF zawiera tekst, który można przeczytać oczami, ale nie można go klikać, zaznaczać, kopiować ani wyszukiwać. Dzieje się tak, ponieważ „tekst” jest w rzeczywistości fotografią — pikselami ułożonymi tak, aby wyglądały jak litery. Aby tekst był zaznaczalny, konieczne jest uruchomienie OCR, który odczytuje obraz i dodaje do dokumentu warstwę prawdziwego tekstu. Po OCR plik PDF wygląda identycznie, ale tekst można kopiować, przeszukiwać i dostępny.

How to Make Text Selectable in a Scanned PDF

Co OCR robi ze zeskanowanym plikiem PDF

OCR (optyczne rozpoznawanie znaków) analizuje wzorce pikseli na każdym obrazie strony, identyfikuje kształty odpowiadające literom i cyfrom oraz tworzy ukrytą warstwę tekstową ustawioną tak, aby była wyrównana z widocznymi znakami. Po przetworzeniu OCR PDF dokument składa się z dwóch warstw: oryginalnego zeskanowanego obrazu (niezmieniony, nadal widoczny) i warstwy tekstowej znajdującej się pod spodem, używanej przez przeglądających podczas zaznaczania lub wyszukiwania.

Wygląd dokumentu nie ulega zmianie – skan wygląda identycznie przed i po OCR. Jakie zmiany dotyczą funkcjonalności dokumentu: tekst można wybierać znak po znaku, działa wyszukiwanie Ctrl+F, kopiowanie i wklejanie tworzy prawdziwy tekst zamiast niczego, a czytniki ekranu mogą czytać treść na głos.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Korzystanie z narzędzia OCR firmy WukongPDF

WukongPDF pod adresem www.wukongpdf.com obsługuje OCR w przeglądarce bez instalacji oprogramowania. Prześlij zeskanowany plik PDF, wybierz język dokumentu, aby uzyskać lepszą dokładność rozpoznawania, przetworzyć i pobrać wynik z możliwością wyszukiwania. Konwertowany plik to standardowy plik PDF z warstwą tekstową — kompatybilny z każdą przeglądarką PDF.

Po pobraniu przetestuj natychmiast: otwórz plik PDF, naciśnij Ctrl+F i wyszukaj słowo widoczne na pierwszej stronie. Jeśli go znajdzie, oznacza to, że OCR zadziałał. Spróbuj wybrać i skopiować zdanie — wklejony tekst powinien odpowiadać temu, co widzisz. Jeśli niczego nie znajdzie lub skopiowany tekst wygląda nieprawidłowo, oznacza to, że funkcja OCR ma problemy z dokładnością, prawdopodobnie z powodu jakości skanowania.

Ulepszone skany programu Adobe Acrobat

Programy Adobe Acrobat Pro i Acrobat Standard zawierają dedykowaną funkcję OCR o nazwie Ulepsz skanowanie. Otwórz zeskanowany plik PDF, przejdź do opcji Narzędzia > Ulepsz skanowanie > Rozpoznaj tekst > W tym pliku. Ustaw język dokumentu i kliknij opcję Rozpoznaj tekst. Acrobat przetwarza strony i dodaje warstwę tekstową. W przypadku dokumentów wielostronicowych program Acrobat przetwarza wszystkie strony w jednej operacji.

Program Acrobat oferuje także funkcję „Udostępnij wyszukiwanie”. opcja nieco różniąca się od pełnego OCR — dodaje warstwę tekstową bez próby rekonstrukcji struktury dokumentu. W większości przypadków preferowana jest standardowa opcja Rozpoznaj tekst, ponieważ tworzy ona zeskanowany plik PDF o prawidłowej strukturze z dokładnym rozmieszczeniem tekstu.

Co wpływa na dokładność OCR

Dokładność OCR jest bezpośrednio powiązana z jakością skanowania. Ten sam dokument dobrze zeskanowany daje niemal doskonałe rezultaty; słabo zeskanowany powoduje błędy wymagające ręcznej korekty.

Rozdzielczość: 300 DPI to minimum dla niezawodnego OCR. Poniżej 200 DPI należy spodziewać się częstych błędów, zwłaszcza w przypadku małego tekstu. 600 DPI poprawia dokładność, ale tworzy duże pliki.
Kontrast: wyraźny czarny tekst na skanach białego papieru z niemal idealną dokładnością. Wyblakły atrament, kolorowy papier lub niski kontrast powodują więcej błędów.
Pochylenie: strony zeskanowane pod znacznym kątem powodują więcej błędów. Nowoczesne narzędzia OCR obejmują prostowanie w celu skorygowania łagodnego przekrzywienia, ale duże kąty pogarszają dokładność.
Typ czcionki: standardowe drukowane kroje pisma w popularnych czcionkach (Times, Arial, Helvetica) są rozpoznawane prawidłowo. Czcionki dekoracyjne, pisane odręcznie lub bardzo małe powodują więcej błędów.

Po OCR: przejrzyj, zanim zaczniesz polegać na tekście

OCR nie jest doskonały — nawet wysokiej jakości skany czasami powodują błędy w rozpoznawaniu. Typowe błędy obejmują mylenie 0 z O, 1 z l, rn z m oraz błędne odczytywanie znaków w pobliżu krawędzi strony. W przypadku dokumentu, dla którego ważna jest dokładność – umowy, sprawozdania finansowego, zgłoszenia prawnego – przed skorzystaniem z niego porównaj wyniki OCR z oryginałem.

W programie Acrobat Pro funkcja Znajdź & Funkcja Zamień może pomóc w systematycznym lokalizowaniu typowych błędów OCR. Wyszukaj „0” i sprawdź każdy wynik, aby zobaczyć, czy któryś powinien mieć wartość „O” lub odwrotnie. W przypadku dokumentów krytycznych jedynym sposobem zagwarantowania dokładności jest pełna korekta oryginalnego skanu. Do celów ogólnych — umożliwiających przeszukiwanie archiwum, wyodrębnianie tekstu do analizy — zazwyczaj wystarcza szybkie sprawdzenie.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →