Dlaczego zeskanowane pliki PDF są o wiele większe niż pliki cyfrowe

Dziesięciostronicowy list napisany w programie Word i wyeksportowany do pliku PDF może mieć rozmiar 200 KB. Te same dziesięć stron zeskanowanych i zapisanych w formacie PDF może mieć 30 MB – 150 razy więcej. Treść jest identyczna. Różnica w wielkości pliku jest ogromna. Problem ten pojawia się stale, gdy ludzie skanują dokumenty, a następnie zastanawiają się, dlaczego nie mogą przesłać wyniku e-mailem. Wyjaśnienie jest proste, jeśli zrozumiesz, w jaki sposób każdy typ PDF przechowuje swoją zawartość.

Why Scanned PDFs Are So Much Larger Than Digital Ones

Dane tekstowe a dane obrazu: podstawowa różnica w wielkości

Cyfrowy plik PDF przechowuje tekst jako dane znakowe. Litera „A” w pliku PDF jest przechowywany jako odniesienie do znaku „A”; określoną czcionką — kilka bajtów informacji, która mówi widzowi, co i gdzie narysować. Cała strona tekstu może zajmować 5–10 KB, ponieważ każdy znak to tylko małe odniesienie, a nie obraz.

Zeskanowany PDF przechowuje każdą stronę jako fotografię. Ta sama strona tekstu, sfotografowana w kolorze w rozdzielczości 300 DPI, to siatka o wymiarach około 2500 × 3500 pikseli — prawie 9 milionów pojedynczych kolorowych kropek, z których każda wymaga danych opisujących jej dokładny kolor. Nawet po kompresji pojedyncza strona zeskanowanego tekstu zajmuje zazwyczaj 1–5 MB. Dziesięć stron oznacza 10-50MB.

Wypróbuj Compress PDF

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Matematyka kryjąca się za różnicą wielkości

Strona A4 zeskanowana w rozdzielczości 300 DPI daje obraz o wymiarach 2480 × 3508 pikseli. To około 8,7 miliona pikseli. W trybie pełnego koloru (RGB) każdy piksel wymaga 3 bajtów danych — po jednym dla wartości koloru czerwonego, zielonego i niebieskiego. Nieskompresowany, to około 26 MB na stronę.

Kompresja JPEG radykalnie to zmniejsza — typowa zeskanowana strona kompresuje się do 1–3 MB. Ale nawet skompresowany, jest o rząd wielkości większy niż kilka KB potrzebnych do przechowywania tej samej treści, co rzeczywiste znaki tekstowe. Treść jest taka sama; metoda przechowywania jest zupełnie inna.

Kolor vs Skala szarości vs Czarno-biały

Nie wszystkie zeskanowane pliki PDF mają ten sam rozmiar. Tryb koloru wybrany podczas skanowania ma ogromny wpływ:

Kolor (RGB): 3 bajty na piksel. Największe pliki. Niezbędne w przypadku dokumentów zawierających kolory; marnotrawstwo czarnego tekstu na białym papierze.
Skala szarości: 1 bajt na piksel. Pliki mają mniej więcej 1/3 rozmiaru skanów kolorowych. Idealny do dokumentów pisanych na maszynie, formularzy i wszystkiego, co nie ma wyraźnego koloru.
Czarno-biały (1-bit): każdy piksel jest albo czarny, albo biały — 1 bit danych. Pliki są bardzo małe. Najlepszy do drukowanych dokumentów tekstowych, gdzie nie jest potrzebne cieniowanie szarości, ale ostry do wszelkich materiałów zawierających gradienty lub zdjęcia.

W przypadku skanowania większości dokumentów — listów, umów, formularzy, faktur — w skali szarości przy rozdzielczości 150–200 DPI powstają pliki, które są czytelne, kompaktowe i nadają się do przesyłania pocztą elektroniczną lub w formacie cyfrowym.

Co zrobić z dużymi skanami PDFs

Jeśli skanowanie zostało już wykonane, a plik jest za duży, najszybszym rozwiązaniem będzie kompresja. PDF Kompresja znacznie zmniejsza zeskanowane pliki PDF — często o 60–80% — ponieważ dane obrazu na każdej stronie charakteryzują się znaczną nadmiarowością, którą kompresja może wyeliminować. WukongPDF w www.wukongpdf.com radzi sobie z tym: prześlij zeskanowany plik PDF, zastosuj średnią lub wysoką kompresję, pobierz plik wystarczająco mały, aby wysłać go pocztą elektroniczną.

Jeśli możesz ponownie zeskanować, najpierw dostosuj ustawienia: przełącz kolor na skalę szarości, zmniejsz DPI z 300 do 150 lub 200 i włącz wbudowaną kompresję PDF w oprogramowaniu skanera. Te zmiany u źródła dają znacznie mniejszy plik bez kompromisów w zakresie jakości, jakie wiążą się z agresywną kompresją po skanowaniu.

Podejście OCR: mniejsze i bardziej przydatne

Uruchomienie zeskanowanego pliku PDF za pomocą funkcji OCR nie tylko umożliwia jego przeszukiwanie, ale może także zmniejszyć rozmiar pliku. Niektóre narzędzia OCR po wyodrębnieniu tekstu zastępują obrazy stron o wysokiej rozdzielczości wersjami o niższej rozdzielczości, ponieważ warstwa tekstowa zapewnia czytelność, a obraz musi jedynie zapewniać kontekst wizualny. Rezultatem jest mniejszy plik, który można również przeszukiwać i kopiować — lepszy wynik niż zwykłe kompresowanie skanu składającego się wyłącznie z obrazu.

Wypróbuj Compress PDF

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →