Co się dzieje z plikiem PDF po skompresowaniu?

Kompresja pliku PDF powoduje, że jest on mniejszy, ale „mniejszy” obejmuje szereg rzeczy dziejących się pod maską. To, co faktycznie ulegnie zmianie, zależy od zawartości pliku i rodzaju zastosowanej kompresji. Zrozumienie tego pomaga przewidzieć, jak będzie wyglądał wynik i wyjaśnia, dlaczego to samo ustawienie kompresji daje radykalnie różne wyniki w różnych dokumentach.

What Happens to a PDF When You Compress It?

A PDF to kilka typów danych w jednym pliku

Zanim przejdziemy do działania kompresji, warto dowiedzieć się, co znajduje się w pliku PDF. Typowy dokument zawiera kombinację: grafiki wektorowej (kształty, linie, wykresy rysowane matematycznie), obrazów rastrowych (zdjęcia, zeskanowane strony, zrzuty ekranu), tekstu z danymi czcionek, metadanych dokumentu (autor, data utworzenia, tytuł) i informacji strukturalnych (układ strony, zakładki, łącza). Każdy z nich jest inaczej przechowywany i inaczej reaguje na kompresję.

Spróbuj skompresować PDF

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Co dzieje się z obrazami

Obrazy zajmują większość rozmiaru pliku PDF i to tam kompresja ma najbardziej dramatyczny efekt. Kiedy kompresujesz plik PDF, narzędzie ponownie koduje osadzone obrazy przy użyciu bardziej agresywnego algorytmu kompresji — zazwyczaj JPEG w przypadku obrazów kolorowych, JBIG2 lub CCITT w przypadku obrazów czarno-białych. Zmniejsza to ilość danych przechowywanych w celu reprezentowania każdego obrazu.

Kompresja JPEG jest stratna — trwale usuwa część danych obrazu, aby uzyskać mniejsze rozmiary plików. Przy ustawieniach wysokiej jakości (80–90%) dane są odrzucane w obszarach obrazu, na które ludzkie oko jest najmniej czułe: delikatna tekstura, subtelne przejścia kolorów, szczegóły o wysokiej częstotliwości. Wynik wygląda zasadniczo identycznie. Przy niższych ustawieniach jakości odrzucone dane stają się widoczne w postaci blokowości, rozmycia lub pasm kolorów — klasycznych artefaktów JPEG.

Próbkowanie w dół to powiązany krok stosowany w niektórych narzędziach do kompresji. Zmniejsza wymiary obrazów w pikselach — obraz o rozdzielczości 300 DPI może zmienić się w 150 DPI — co powoduje, że pliki są znacznie mniejsze, ale także sprawiają, że obrazy są bardziej miękkie po wydrukowaniu lub powiększeniu. Jakość PDF Narzędzia kompresji albo pomijają próbkowanie w dół, albo ustawiają je jako ustawienie opcjonalne.

Co dzieje się z tekstem

Tekst w pliku PDF jest przechowywany jako znaki z pozycjami, stylami i odniesieniami do czcionek, a nie jako obrazy liter. Dane te są bardzo wydajnie kompresowane przy użyciu bezstratnych algorytmów, takich jak Deflate (ten sam algorytm, który jest używany w plikach ZIP). Kompresja bezstratna zmniejsza rozmiar pliku bez usuwania jakichkolwiek danych: zdekompresowany plik wyjściowy jest bit po bicie identyczny z oryginałem.

Oznacza to, że tekst w skompresowanym pliku PDF jest dokładnie taki sam jak w oryginale — te same znaki, te same pozycje i ten sam rendering czcionki. Tekst skompresowanego dokumentu nie ulega żadnej degradacji. Jeśli tekst w skompresowanym pliku PDF wygląda inaczej, problemem jest renderowanie czcionek w przeglądarce, a nie zmiana kompresji.

Co się dzieje z czcionkami

Osadzone czcionki mogą znacząco wpływać na rozmiar pliku. Plik PDF zawierający kompletne pliki czcionek dla pięciu krojów pisma może zawierać kilka megabajtów samych danych czcionek. Narzędzia do kompresji mogą rozwiązać ten problem poprzez podzbiór czcionek — usunięcie z osadzonej czcionki wszelkich znaków, które w rzeczywistości nie są używane w dokumencie. Dokument, w którym używane są tylko litery A-Z i 0-9, nie wymaga osadzenia pełnego zestawu znaków Unicode.

Podzbiór czcionek jest bezstratny z punktu widzenia czytelnika — dokument nadal jest renderowany poprawnie, ponieważ wszystkie znaki w nim występujące są nadal obecne. Oszczędności zależą od tego, ile znaków jest osadzonych w oryginalnej czcionce w porównaniu z liczbą faktycznie użytych.

Co zostanie całkowicie usunięte

Oprócz kompresowania istniejących danych narzędzia do kompresji usuwają również obciążenie, które z biegiem czasu gromadzi się w plikach PDF. Za każdym razem, gdy PDF jest edytowany i zapisywany, poprzednia wersja edytowanych elementów jest często zachowywana w strukturze pliku, a nie usuwana — w ten sposób działa historia cofania i odzyskiwanie wersji w edytorach PDF. Dokument, który przeszedł wiele cykli edycji i zapisywania, może nieść ze sobą wiele ciężaru własnego: stare wersje obiektów, zduplikowane dane, usuniętą treść, która nigdy tak naprawdę nie została usunięta z pliku.

Kompresja to usuwa. Narzędzie odbudowuje strukturę pliku od podstaw, zachowując jedynie bieżący stan każdego elementu i odrzucając zgromadzoną historię. Właśnie dlatego świeżo skompresowane pliki PDF są czasami znacznie mniejsze niż oczekiwano — plik zawierał znaczne, ukryte wzdęcia wynikające z poprzednich edycji.

Co pozostaje dokładnie takie samo

Kompresja nie zmienia zawartości, układu ani struktury dokumentu. Liczba stron, kolejność stron, zawartość tekstu, grafika wektorowa, zakładki, hiperłącza i pola formularzy pozostają nienaruszone. Skompresowany plik PDF otwiera się, wyświetla i zachowuje się identycznie jak oryginał ze względów praktycznych.

To, co może się zmienić — w zależności od ustawień — to ostrość obrazu przy dużych poziomach powiększenia oraz metadane pliku. Niektóre narzędzia do kompresji usuwają lub aktualizują metadane, co zwykle jest w porządku, ale warto o tym wiedzieć, jeśli pierwotna data utworzenia lub pole autora mają znaczenie dla Twoich rekordów.

Spróbuj skompresować PDF

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →