Dlaczego kopiowanie tekstu z pliku PDF dodaje dodatkowe podziały wierszy?

Kopiujesz akapit z pliku PDF i wklejasz go gdzie indziej, a każdy wiersz kończy się twardym znakiem powrotu — tekst nie zmienia przepływu, po prostu pęka tam, gdzie linia kończy się na stronie. Jest to jedna z najczęstszych irytacji PDF, która ma konkretną przyczynę techniczną, która wyjaśnia, dlaczego tak się dzieje i co można z tym zrobić.

Why Does Copying Text From a PDF Add Extra Line Breaks?

Dlaczego tak się dzieje: jak PDF przechowuje tekst

Plik PDF nie przechowuje tekstu w postaci akapitów, tak jak robi to Word lub Dokumenty Google. Zamiast tego przechowuje pojedyncze znaki lub małe grupy znaków, każdy z określoną pozycją na stronie — współrzędne X i Y, które umieszczają każdy fragment tekstu dokładnie tam, gdzie powinien się pojawić. Moduł renderujący PDF rysuje te ustawione elementy, aby uzyskać efekt wizualny, który widzisz.

Podczas kopiowania tekstu przeglądarka PDF musi zrekonstruować strumień tekstu z tych umieszczonych fragmentów. Czyta znaki w kolejności i musi odgadnąć, gdzie kończy się jedna linia, a zaczyna druga, na podstawie zmian pozycji w pionie. Kiedy wykryje podział wiersza — skok w pozycji Y — wstawia znak podziału wiersza. W rezultacie każda wizualna linia w pliku PDF staje się oddzielną linią we wklejonym tekście.

Jest to podstawowa cecha działania wyodrębniania tekstu PDF, a nie błąd w żadnej konkretnej przeglądarce. Niektóre pliki PDF zawierają informacje strukturalne, które pomagają przeglądającym odróżnić miękkie zawijanie linii (w akapicie) od twardych podziałów akapitów — ale wiele z nich tego nie robi, zwłaszcza starsze pliki PDF lub wyeksportowane z określonego oprogramowania.

Spróbuj edytować PDF

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Kiedy jest gorzej: układy wielokolumnowe

Układy wielokolumnowe znacznie pogarszają ten problem. Gdy tekst przepływa w dwóch lub trzech kolumnach, przeglądarka PDF wyodrębniająca tekst w kolejności od lewej do prawej i od góry do dołu często przeplata tekst z różnych kolumn — wiersz z lewej kolumny, następnie wiersz z prawej kolumny, a następnie kolejny wiersz z lewej. Powstała pasta jest rozdrobniona i wymaga znacznego ręcznego oczyszczenia.

Słyną z tego artykuły akademickie w formacie dwukolumnowym. Kopiowanie akapitu z artykułu naukowego PDF często powoduje utworzenie naprzemiennych fragmentów z obu kolumn, a nie czystego jednokolumnowego bloku tekstu.

Szybkie poprawki dla małych ilości tekstu

W przypadku kilku akapitów najszybszym rozwiązaniem jest operacja znajdź i zamień w edytorze tekstu lub edytorze tekstu po wklejeniu. Chcesz zastąpić pojedyncze podziały wierszy (które są niepożądane w akapitach), zachowując podwójne podziały wierszy (które oddzielają oryginalne akapity).

W programie Microsoft Word użyj funkcji Znajdź & Zamień na symbole wieloznaczne: zastąp pojedyncze znaki akapitu (^p), po których nie następuje inny znak akapitu, zastępując je spacją. W edytorze zwykłego tekstu większość narzędzi do wyszukiwania i zamiany umożliwia użycie wyrażeń regularnych w tym samym celu. Dzięki temu w ciągu kilku sekund 30-wierszowa, uszkodzona pasta staje się prawidłowo płynącym akapitem.

Lepsze podejście do dużych ilości tekstu

W przypadku wyodrębniania dużych ilości tekstu z pliku PDF metoda kopiuj-wklej jest niewłaściwym narzędziem. Konwersja pliku PDF na program Word za pomocą konwertera PDF daje lepsze wyniki, ponieważ proces konwersji próbuje zrekonstruować strukturę dokumentu — identyfikując akapity, nagłówki i układ — a nie tylko wyodrębniać surowe pozycje znaków.

Przekonwertowany dokument programu Word nadal wymaga sprawdzenia, szczególnie w przypadku złożonych układów, ale struktura akapitów jest zwykle nienaruszona i nie ma mowy o podziałach wiersz po wierszu w całym dokumencie.

Ulepszenia specyficzne dla przeglądarki

Niektóre przeglądarki PDF radzą sobie z wyodrębnianiem tekstu lepiej niż inne. W programie Adobe Acrobat Reader dostępna jest opcja „Kopiuj z formatowaniem”. opcja, która lepiej rekonstruuje akapity niż zwykła kopia. Jeśli regularnie wyodrębniasz tekst, testowanie różnych przeglądarek tego samego pliku PDF czasami pozwala znaleźć taką, która zapewnia czystszy wynik.

Ostatecznie jakość wyodrębnienia tekstu zależy od sposobu utworzenia pliku PDF. Dobrze zorganizowany PDF wyeksportowany z nowoczesnego edytora tekstu z odpowiednimi fragmentami tagów akapitów. Plik PDF wydrukowany do pliku, przekonwertowany z obrazu lub wyeksportowany z oprogramowania, które nie zawiera informacji strukturalnych, zawsze będzie generował uszkodzony tekst na kopii. W przypadku tych plików niezawodną ścieżką jest konwersja do programu Word.

Spróbuj edytować PDF

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →