OCR oznacza optyczne rozpoznawanie znaków. Jest to technologia, która odczytuje tekst z obrazów — w tym zeskanowanych dokumentów, zdjęć stron i plików PDF zawierających wyłącznie obrazy — i konwertuje to, co widzi, na rzeczywiste dane tekstowe, które mogą przetworzyć komputery. Jeśli kiedykolwiek zeskanowałeś dokument i zastanawiałeś się, dlaczego nie możesz wyszukać lub skopiować tekstu, rozwiązaniem jest OCR.

Problem rozwiązany przez OCR
Podczas skanowania dokumentu skaner rejestruje fotografię strony. Dla komputera to zdjęcie to tylko piksele — kolorowe kropki ułożone na siatce. Słowa widoczne na obrazku nie istnieją jako tekst z perspektywy komputera. Nie może ich przeszukiwać, kopiować, tłumaczyć ani czytać na głos.
OCR wypełnia tę lukę. Analizuje wzory pikseli na obrazie, identyfikuje kształty odpowiadające literom i cyfrom oraz konwertuje te kształty na rzeczywiste znaki tekstowe. Po przetworzeniu OCR PDF dokument składa się z dwóch warstw: oryginalnego obrazu (który nadal wygląda dokładnie tak samo) i ukrytej warstwy tekstowej, którą komputer może czytać, przeszukiwać i przetwarzać.
Wypróbuj PDF OCR
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
Jak właściwie działa OCR
Nowoczesne systemy OCR wykorzystują modele uczenia maszynowego trenowane na milionach obrazów dokumentów. Podczas przetwarzania strony system przechodzi przez kilka etapów:
- Wstępne przetwarzanie obrazu: obraz jest oczyszczany — prostowany, jeśli jest przekrzywiony, zwiększany jest kontrast i redukowany szum. Czystszy obraz zapewnia dokładniejsze rozpoznawanie.
- Analiza układu: system identyfikuje strukturę strony — gdzie znajdują się bloki tekstu, gdzie znajdują się obrazy, kolejność czytania, granice kolumn, komórki tabeli.
- Rozpoznawanie znaków: model analizuje kształt każdego znaku i przypisuje najbardziej prawdopodobną literę, cyfrę lub symbol. Uwzględnia kontekst – „tHe”; jest bardziej prawdopodobne, że będzie to „the” — w celu poprawy dokładności.
- Tworzenie warstwy tekstowej: rozpoznane znaki są łączone w słowa i zdania, ustawiane tak, aby pasowały do oryginalnego obrazu i osadzane w PDF jako warstwa tekstowa z możliwością przeszukiwania.
Co wpływa na dokładność OCR
Dokładność rozpoznawania OCR różni się znacznie w zależności od jakości obrazu źródłowego i rozpoznawanej treści:
- Rozdzielczość skanowania: wyższe DPI zapewnia czystsze krawędzie znaków i lepsze rozpoznawanie. Zalecane minimum dla niezawodnego OCR to 300 DPI. Obrazy o rozdzielczości poniżej 150 DPI często powodują znaczne błędy.
- Typ czcionki: standardowe czcionki drukowane w popularnych krojach (Times, Arial, Helvetica) są rozpoznawane z dużą dokładnością. Dekoracyjne czcionki, nietypowe kroje pisma i bardzo mały tekst powodują więcej błędów.
- Stan dokumentu: pożółkły papier, wyblakły atrament, smugi, przekrzywione skanowanie i cienie pogarszają jakość rozpoznawania. Czyste, proste skanowanie o wysokim kontraście zapewnia najlepsze rezultaty.
- Język: popularne języki (angielski, hiszpański, francuski, niemiecki, chiński, japoński) mają obszerne dane szkoleniowe i wysoką dokładność. Mniej popularne języki i skrypty mogą zawierać więcej błędów.
- Pismo ręczne: OCR na drukowanym tekście jest bardzo dokładne. Rozpoznawanie pisma ręcznego to inny i trudniejszy problem — dokładność różni się znacznie w zależności od stylu pisma ręcznego i konkretnego użytego modelu.
Jak wygląda wynik
Po OCR plik PDF wygląda identycznie jak wcześniej — oryginalny zeskanowany obraz pozostaje niezmieniony. Różnica jest niewidoczna dla oka, ale znacząca w działaniu. Dokument ma teraz ukrytą warstwę tekstową wyrównaną z obrazem. Kiedy szukasz słowa, przeglądarka odnajduje je w warstwie tekstowej i podświetla na obrazie. Zaznaczając i kopiując tekst, kopiujesz z warstwy tekstowej. Kiedy czytnik ekranu ogłasza treść, odczytuje warstwę tekstową.
Warstwa obrazu i warstwa tekstowa są oddzielnymi elementami — OCR w żaden sposób nie zmienia oryginalnego skanu. Jeśli OCR popełnił błędy, obraz nadal pokazuje poprawny, oryginalny tekst; tylko ukryta warstwa tekstowa zawiera błąd.
Jak zastosować OCR do PDF
Narzędzie WukongPDF OCR PDF pod adresem www.wukongpdf.com radzi sobie z tym bez konieczności korzystania z oprogramowania komputerowego — prześlij zeskanowany plik PDF, wybierz język dokumentu w celu uzyskania większej dokładności, przetwórz i pobierz wynik z możliwością wyszukiwania. W przypadku standardowego dokumentu operacja trwa zwykle 10–30 sekund.
Program Adobe Acrobat Pro ma wbudowaną funkcję OCR (Narzędzia > Popraw skanowanie > Rozpoznaj tekst) z dodatkowymi opcjami kontrolowania jakości rozpoznawania i obsługi dokumentów wielostronicowych. W przypadku organizacji przetwarzających duże ilości zeskanowanych dokumentów funkcja wsadowego OCR programu Acrobat automatycznie przetwarza całe foldery plików.
Wypróbuj PDF OCR
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
