Istnieją trzy zupełnie różne powody, dla których tekst nie jest kopiowany z pliku PDF, a każdy z nich ma inną poprawkę. Podejście, które rozwiązuje jeden, nie pomoże w przypadku innych, więc zdiagnozowanie sytuacji, w której się znajdujesz, pozwala zaoszczędzić wiele frustracji.

Powód 1: PDF to zeskanowany obraz
Jest to najczęstsza przyczyna. Podczas skanowania dokumentu fizycznego skaner fotografuje stronę i zapisuje tę fotografię w kontenerze PDF. Tekst widoczny na ekranie jest częścią obrazu — pikselami ułożonymi tak, aby wyglądały jak litery — a nie rzeczywistymi znakami tekstowymi, które można zaznaczyć lub skopiować. Kliknięcie go przypomina próbę skopiowania tekstu ze zdjęcia.
Szybki test: spróbuj kliknąć i przeciągnąć, aby podświetlić pojedyncze słowo. Jeśli możesz wyróżnić pojedyncze słowa lub litery, w pliku znajduje się prawdziwy tekst. Jeśli kursor zachowuje się tak, jakbyś zaznaczał prostokąt obrazu, a możesz chwycić tylko ramkę z zawartością strony, jest to zeskanowany obraz.
Rozwiązaniem jest OCR — optyczne rozpoznawanie znaków. Oprogramowanie OCR analizuje obraz, identyfikuje tekst i dodaje do pliku PDF warstwę prawdziwego tekstu, którą można wyszukiwać, zaznaczać i kopiować. Po uruchomieniu OCR dokument wygląda identycznie, ale zachowuje się jak normalny PDF. Narzędzie OCR PDF firmy WukongPDF robi to w przeglądarce: przesyła zeskanowany plik PDF, przetwarza go i pobiera wersję z możliwością wyszukiwania.
Wypróbuj PDF OCR
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
Powód 2: Kopiowanie jest ograniczone przez właściciela dokumentu
PDF posiada system uprawnień, który pozwala twórcom ograniczać to, co czytelnicy mogą zrobić z dokumentem. Jednym z tych ograniczeń jest kopiowanie — właściciel może zezwolić na czytanie, ale zablokować zaznaczanie i kopiowanie tekstu. Jeśli to ograniczenie jest ustawione, możesz zobaczyć i przeczytać tekst na ekranie, ale gdy spróbujesz go zaznaczyć, nic się nie podświetli lub po wklejeniu nic się nie wyświetli.
Możesz sprawdzić, czy tak jest: w większości przeglądarek PDF przejdź do Plik → Właściwości lub Właściwości dokumentu, a następnie spójrz na zakładkę Bezpieczeństwo lub Uprawnienia. Wyświetli listę tego, co jest dozwolone i ograniczone. Jeśli opcja „Kopiowanie treści” wyświetla się jako Niedozwolone, ograniczenie kopiowania jest aktywne.
To, czy możesz usunąć to ograniczenie, zależy od tego, czy masz hasło. Jeśli jest to Twój własny dokument i pamiętasz hasło, dowolny edytor PDF pozwoli Ci otworzyć go za pomocą hasła i usunąć ograniczenia. Jeśli jest to dokument, który przesłała Ci inna osoba i celowo ograniczono jej kopiowanie, musisz poprosić tę osobę o przesłanie wersji nieograniczonej.
Powód 3: Tekst jest kopiowany, ale wychodzi zniekształcony
Czasami kopiowanie technicznie działa, ale to, co wklejasz, to śmieci — losowe znaki, symbole lub tekst w niewłaściwej kolejności. Jest to problem z kodowaniem czcionek. Niektóre pliki PDF używają niestandardowych lub osadzonych czcionek z niestandardowymi mapowaniami znaków. Przeglądarka PDF może wizualnie renderować tekst przy użyciu czcionki, ale gdy próbujesz skopiować podstawowe kody znaków, nie odpowiadają one literom, które widzisz.
Dzieje się tak najczęściej w przypadku starszych plików PDF, dokumentów utworzonych za pomocą określonego oprogramowania do projektowania lub plików, w których zastosowano nietypowe kodowanie czcionek. Jedynym niezawodnym rozwiązaniem jest uruchomienie OCR na dokumencie, który ponownie odczytuje treść wizualną i tworzy świeżą, poprawną warstwę tekstową. Zastępuje to uszkodzone kodowanie czystym, możliwym do skopiowania tekstem.
Kiedy kopiowany jest tekst, ale występują problemy z formatowaniem
Nieco inny problem: tekst jest kopiowany poprawnie, ale zawiera nieprawidłowe podziały wierszy, połączone słowa lub brakujące spacje. Jest to normalne zachowanie przy wyodrębnianiu tekstu PDF. Pliki PDF przechowują tekst w postaci umieszczonych znaków na stronie, a nie w postaci ciągłych akapitów, jak ma to miejsce w dokumencie programu Word. Kiedy kopiujesz kolumnę tekstu lub układ wielokolumnowy, ekstraktor nie zawsze wie, gdzie kończy się jedna linia, a zaczyna druga.
W przypadku małych ilości tekstu najszybszym rozwiązaniem jest zwykle czyszczenie ręczne. W przypadku dużych objętości — na przykład wyodrębniania zawartości całego raportu — konwersja pliku PDF do programu Word za pomocą narzędzia PDF Converter daje czystszy wynik niż kopiowanie i wklejanie, ponieważ proces konwersji stara się zachować strukturę dokumentu, a nie wyodrębnianie nieprzetworzonych pozycji znaków.
Jak wybrać właściwą poprawkę
Dopasuj poprawkę do diagnozy:
- Nie można zaznaczyć żadnego tekstu, kursor zachowuje się jak obraz → Uruchom OCR
- Tekst można zaznaczyć na ekranie, ale nie można go wkleić → Sprawdź uprawnienia dokumentu, a jeśli są ograniczone, skontaktuj się z nadawcą
- Wkleja jako zniekształcone znaki → Uruchom OCR, aby odbudować warstwę tekstową
- Kopiuje poprawnie, ale ma złe formatowanie → Konwertuj do programu Word w przypadku dużych wyodrębnień, w przypadku małych wyczyść ręcznie
Trasa OCR rozwiązuje trzy z czterech przypadków, dlatego zazwyczaj jest to pierwsza rzecz, którą należy wypróbować, jeśli nie masz pewności, co się dzieje. Zeskanowany plik PDF, który przeszedł proces OCR, zachowuje się jak każdy normalny dokument tekstowy — można go w pełni przeszukiwać, wybierać i kopiować.
Wypróbuj PDF OCR
Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.
