Co to jest OCR i jak działa z plikami PDF?

OCR oznacza optyczne rozpoznawanie znaków. Jest to technologia, która odczytuje tekst z obrazów — w tym zeskanowanych dokumentów, zdjęć stron i plików PDF zawierających wyłącznie obrazy — i konwertuje to, co widzi, na rzeczywiste dane tekstowe, które mogą przetworzyć komputery. Jeśli kiedykolwiek zeskanowałeś dokument i zastanawiałeś się, dlaczego nie możesz wyszukać lub skopiować tekstu, rozwiązaniem jest OCR.

What Is OCR and How Does It Work With PDFs?

Problem rozwiązany przez OCR

Podczas skanowania dokumentu skaner rejestruje fotografię strony. Dla komputera to zdjęcie to tylko piksele — kolorowe kropki ułożone na siatce. Słowa widoczne na obrazku nie istnieją jako tekst z perspektywy komputera. Nie może ich przeszukiwać, kopiować, tłumaczyć ani czytać na głos.

OCR wypełnia tę lukę. Analizuje wzory pikseli na obrazie, identyfikuje kształty odpowiadające literom i cyfrom oraz konwertuje te kształty na rzeczywiste znaki tekstowe. Po przetworzeniu OCR PDF dokument składa się z dwóch warstw: oryginalnego obrazu (który nadal wygląda dokładnie tak samo) i ukrytej warstwy tekstowej, którą komputer może czytać, przeszukiwać i przetwarzać.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Jak właściwie działa OCR

Nowoczesne systemy OCR wykorzystują modele uczenia maszynowego trenowane na milionach obrazów dokumentów. Podczas przetwarzania strony system przechodzi przez kilka etapów:

Wstępne przetwarzanie obrazu: obraz jest oczyszczany — prostowany, jeśli jest przekrzywiony, zwiększany jest kontrast i redukowany szum. Czystszy obraz zapewnia dokładniejsze rozpoznawanie.
Analiza układu: system identyfikuje strukturę strony — gdzie znajdują się bloki tekstu, gdzie znajdują się obrazy, kolejność czytania, granice kolumn, komórki tabeli.
Rozpoznawanie znaków: model analizuje kształt każdego znaku i przypisuje najbardziej prawdopodobną literę, cyfrę lub symbol. Uwzględnia kontekst – „tHe”; jest bardziej prawdopodobne, że będzie to „the” — w celu poprawy dokładności.
Tworzenie warstwy tekstowej: rozpoznane znaki są łączone w słowa i zdania, ustawiane tak, aby pasowały do oryginalnego obrazu i osadzane w PDF jako warstwa tekstowa z możliwością przeszukiwania.

Co wpływa na dokładność OCR

Dokładność rozpoznawania OCR różni się znacznie w zależności od jakości obrazu źródłowego i rozpoznawanej treści:

Rozdzielczość skanowania: wyższe DPI zapewnia czystsze krawędzie znaków i lepsze rozpoznawanie. Zalecane minimum dla niezawodnego OCR to 300 DPI. Obrazy o rozdzielczości poniżej 150 DPI często powodują znaczne błędy.
Typ czcionki: standardowe czcionki drukowane w popularnych krojach (Times, Arial, Helvetica) są rozpoznawane z dużą dokładnością. Dekoracyjne czcionki, nietypowe kroje pisma i bardzo mały tekst powodują więcej błędów.
Stan dokumentu: pożółkły papier, wyblakły atrament, smugi, przekrzywione skanowanie i cienie pogarszają jakość rozpoznawania. Czyste, proste skanowanie o wysokim kontraście zapewnia najlepsze rezultaty.
Język: popularne języki (angielski, hiszpański, francuski, niemiecki, chiński, japoński) mają obszerne dane szkoleniowe i wysoką dokładność. Mniej popularne języki i skrypty mogą zawierać więcej błędów.
Pismo ręczne: OCR na drukowanym tekście jest bardzo dokładne. Rozpoznawanie pisma ręcznego to inny i trudniejszy problem — dokładność różni się znacznie w zależności od stylu pisma ręcznego i konkretnego użytego modelu.

Jak wygląda wynik

Po OCR plik PDF wygląda identycznie jak wcześniej — oryginalny zeskanowany obraz pozostaje niezmieniony. Różnica jest niewidoczna dla oka, ale znacząca w działaniu. Dokument ma teraz ukrytą warstwę tekstową wyrównaną z obrazem. Kiedy szukasz słowa, przeglądarka odnajduje je w warstwie tekstowej i podświetla na obrazie. Zaznaczając i kopiując tekst, kopiujesz z warstwy tekstowej. Kiedy czytnik ekranu ogłasza treść, odczytuje warstwę tekstową.

Warstwa obrazu i warstwa tekstowa są oddzielnymi elementami — OCR w żaden sposób nie zmienia oryginalnego skanu. Jeśli OCR popełnił błędy, obraz nadal pokazuje poprawny, oryginalny tekst; tylko ukryta warstwa tekstowa zawiera błąd.

Jak zastosować OCR do PDF

Narzędzie WukongPDF OCR PDF pod adresem www.wukongpdf.com radzi sobie z tym bez konieczności korzystania z oprogramowania komputerowego — prześlij zeskanowany plik PDF, wybierz język dokumentu w celu uzyskania większej dokładności, przetwórz i pobierz wynik z możliwością wyszukiwania. W przypadku standardowego dokumentu operacja trwa zwykle 10–30 sekund.

Program Adobe Acrobat Pro ma wbudowaną funkcję OCR (Narzędzia > Popraw skanowanie > Rozpoznaj tekst) z dodatkowymi opcjami kontrolowania jakości rozpoznawania i obsługi dokumentów wielostronicowych. W przypadku organizacji przetwarzających duże ilości zeskanowanych dokumentów funkcja wsadowego OCR programu Acrobat automatycznie przetwarza całe foldery plików.

Wypróbuj PDF OCR

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →