Ludzie często używają „PDF” i „zeskanowany dokument” zamiennie — zwłaszcza w biurze, gdzie ktoś mówi „po prostu zeskanuj i wyślij PDF”. Jednak PDF i zeskanowany dokument to nie to samo, a połączenie tych dwóch powoduje prawdziwe zamieszanie. Skan można zapisać w formacie PDF, ale nie wszystkie pliki PDF są skanami, a różnica ma istotne konsekwencje praktyczne.

Czym właściwie jest PDF
PDF oznacza przenośny format dokumentu. Jest to format pliku — kontener, w którym można przechowywać wiele różnych typów treści: prawdziwy tekst, grafikę wektorową, obrazy, hiperłącza, pola formularzy, zakładki i inne. Format PDF został zaprojektowany w celu spójnego przedstawiania dokumentów na dowolnym urządzeniu i systemie operacyjnym.
Plik PDF utworzony z dokumentu programu Word zawiera rzeczywisty tekst — znaki, które komputer może czytać, wyszukiwać, kopiować i przetwarzać. Plik PDF utworzony na podstawie arkusza kalkulacyjnego Excel zawiera rzeczywiste dane. Plik PDF wygenerowany przez przeglądarkę zawiera rzeczywistą treść strony internetowej. W każdym przypadku PDF jest dokumentem strukturalnym zawierającym prawdziwą treść, a nie fotografię.
Wypróbuj PDF OCR
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
Co to jest zeskanowany dokument
Zeskanowany dokument jest fotografią fizycznej strony. Skaner przechwytuje światło odbite od papieru i przekształca je w siatkę pikseli — obraz rastrowy. Wynikowy plik jest obrazem dokumentu, a nie samym dokumentem. Każdy tekst widoczny na skanie istnieje tylko w postaci kolorowych pikseli ułożonych tak, aby wyglądały jak litery.
Po zapisaniu tego skanu w formacie PDF otrzymasz plik PDF — ale taki, którego zawartość stanowi obraz, a nie tekst. Pojemnik PDF jest prawdziwy, ale w środku znajduje się fotografia. Nazywa się to PDF zawierającym tylko obraz lub zeskanowanym PDF i zachowuje się zupełnie inaczej niż PDF z rzeczywistą zawartością tekstową.
Dlaczego zamieszanie
Zamieszanie wynika z faktu, że zeskanowane dokumenty są zwykle zapisywane w formacie PDF. Skanery i aplikacje skanera zazwyczaj domyślnie wysyłają pliki .pdf. Zatem gdy ktoś otrzyma plik „PDF”, mogli otrzymać cyfrowy plik PDF z prawdziwym tekstem lub zeskanowany plik PDF z zawartością obrazu — oba wyglądają identycznie na ekranie.
Różnica staje się widoczna dopiero wtedy, gdy spróbujesz coś zrobić z plikiem. Spróbuj wyszukać słowo. Spróbuj skopiować zdanie. Spróbuj użyć czytnika ekranu. Cyfrowy PDF obsługuje to wszystko. Zeskanowany plik PDF nie obsługuje żadnego z nich — chyba że zastosowano OCR w celu dodania warstwy tekstowej.
Praktyczne różnice, które mają znaczenie
- Możliwość wyszukiwania: cyfrowe pliki PDF można w pełni przeszukiwać. Zeskanowane pliki PDF nie zwracają żadnych wyników, chyba że zastosowano OCR.
- Rozmiar pliku: cyfrowy PDF jest kompaktowy — 10-stronicowy dokument tekstowy ma zazwyczaj mniej niż 500 KB. Zeskanowane obrazy stron sklepu w formacie PDF są zazwyczaj 10–100 razy większe.
- Kopiuj i wklej: możesz zaznaczać i kopiować tekst z cyfrowego pliku PDF. Nie można tego zrobić ze zeskanowanego pliku PDF — próba zaznaczenia tekstu powoduje zaznaczenie obrazu całej strony.
- Edycja: cyfrowe pliki PDF można edytować tekst bezpośrednio w edytorze PDF. Zeskanowane pliki PDF mogą mieć tylko nową zawartość umieszczoną na górze — istniejącej zawartości obrazu nie można zmienić.
- Dostępność: czytniki ekranu współpracują z cyfrowymi plikami PDF. Zeskanowane pliki PDF są całkowicie niedostępne dla technologii wspomagających bez warstwy tekstowej OCR.
Jak stwierdzić, jaki masz typ
Otwórz PDF i spróbuj kliknąć słowo. W formacie cyfrowym PDF kursor staje się kursorem tekstowym i można wybierać pojedyncze słowa. W zeskanowanym pliku PDF nic się nie dzieje lub cała strona jest zaznaczana jako jeden blok.
Naciśnij Ctrl+F i wyszukaj słowo, które widzisz na stronie. Jeśli zostanie znaleziony, PDF zawiera prawdziwy tekst. Jeśli wyszukiwanie nic nie zwraca, dotyczy to tylko obrazu. Trzecim wskaźnikiem jest jakość powiększenia — powiększenie do cyfrowego pliku PDF pozwala zachować ostrość tekstu przy dowolnym powiększeniu, natomiast powiększenie do zeskanowanego pliku PDF ujawnia pikselację podczas powiększania obrazu.
Tworzenie zeskanowanego pliku PDF Zachowuj się jak plik cyfrowy
OCR — optyczne rozpoznawanie znaków — odczytuje obrazy ze zeskanowanego pliku PDF, rozpoznaje znaki tekstowe i dodaje do pliku warstwę prawdziwego tekstu. Po OCR dokument staje się możliwy do przeszukiwania, kopiowania i udostępniania. Narzędzie OCR firmy WukongPDF pod adresem www.wukongpdf.com robi to bez oprogramowania komputerowego — prześlij zeskanowany plik PDF, uruchom OCR i pobierz wersję zawierającą teraz prawdziwy tekst. Nie spowoduje to przekształcenia zeskanowanego PDF w natywny dokument cyfrowy, ale wypełnia większość praktycznych luk.
Wypróbuj PDF OCR
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
