Jak przekonwertować PDF na tekst

Wyodrębnianie tekstu z pliku PDF — w postaci zwykłego pliku tekstowego lub do edytowalnego dokumentu — jest jedną z częściej potrzebnych operacji PDF. To, które podejście sprawdzi się najlepiej, zależy od tego, czy plik PDF zawiera prawdziwą warstwę tekstową, czy jest zeskanowanym obrazem, oraz od tego, co planujesz zrobić z wyodrębnionym tekstem.

Najprostsza metoda: skopiuj i wklej

W przypadku pliku PDF z zaznaczanym tekstem często najszybszym rozwiązaniem jest skopiowanie i wklejenie do edytora tekstu lub edytora tekstu. Otwórz plik PDF, naciśnij Ctrl+A, aby zaznaczyć wszystko, Ctrl+C, aby skopiować, a następnie Ctrl+V, aby wkleić do Notatnika, TextEdit, Worda lub gdziekolwiek potrzebujesz tekstu. Działa to dobrze w przypadku krótkich dokumentów lub gdy potrzebujesz szybko treści, nie dbając o zachowanie struktury.

Ograniczenie: kopiowanie i wklejanie nie zachowuje formatowania, a w przypadku wielokolumnowych plików PDF lub dokumentów o skomplikowanym układzie tekst często pojawia się w niewłaściwej kolejności — kolumny są przeplatane, przypisy pojawiają się w połowie akapitu, nagłówki i stopki mieszają się z tekstem podstawowym. W przypadku prostego dokumentu liniowego nie stanowi to problemu. W przypadku złożonych układów może to utrudnić pracę z wyodrębnionym tekstem.

Wypróbuj PDF w programie Word

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →

Konwersja do Worda w celu uzyskania lepszej struktury

Gdy wyodrębnianie tekstu wymaga zachowania akapitów, nagłówków i podstawowej struktury — aby można było edytować treść w edytorze tekstu, a nie tylko czytać ją jako zwykły tekst — konwersja do programu Word jest lepszą ścieżką niż kopiowanie i wklejanie. Konwerter PDF analizuje strukturę dokumentu i próbuje zrekonstruować akapity, nagłówki, listy i tabele jako właściwe elementy programu Word, zamiast po prostu wyrzucać cały tekst w kolejności czytania.

Dokumenty Google robią to bezpłatnie: prześlij plik PDF na Dysk, otwórz w Dokumentach Google, a tekst pojawi się z rozsądnie zachowaną strukturą. Aby zapewnić dokładniejszą konwersję złożonych dokumentów, dedykowane narzędzia PDF do Word radzą sobie z analizą układu lepiej niż wbudowany importer Google.

Wyodrębnianie do zwykłego tekstu (.txt)

W przypadku przetwarzania danych, przesyłania treści do innych narzędzi lub archiwizowania samej treści tekstowej bez żadnego formatowania zwykła ekstrakcja do pliku .txt jest czystsza niż konwersja do programu Word. Adobe Acrobat (wersja płatna) może zapisać plik PDF jako zwykły tekst poprzez opcję Plik → Eksportuj do → Tekst (zwykły). Bezpłatny program Acrobat Reader nie umożliwia zapisywania tekstu w formacie tekstowym, ale można skopiować całość i wkleić do Notatnika, co w praktyce daje taki sam rezultat.

W przypadku ekstrakcji wsadowej lub zastosowań programistycznych Python z biblioteką pdfplumber lub PyPDF2 automatycznie wyodrębnia tekst z wielu plików PDF, co jest przydatne, gdy trzeba przetworzyć wiele dokumentów. Narzędzia wiersza poleceń, takie jak pdftotext (część pakietu narzędzi Poppler, dostępna na komputerach Mac za pośrednictwem Homebrew i Linux za pośrednictwem menedżerów pakietów) wykonują to samo skutecznie, bez konieczności pisania żadnego kodu.

Zeskanowane PDF: Najpierw OCR

W przypadku zeskanowanych plików PDF bez warstwy tekstowej żadna z powyższych metod nie działa — nie ma tekstu do wyodrębnienia. Strona jest zapisywana jako obraz. Najpierw musi zostać uruchomiony OCR, aby rozpoznać znaki i utworzyć warstwę tekstową, zanim będzie możliwe wyodrębnienie. Narzędzie WukongPDF OCR PDF dodaje warstwę tekstową do PDF; następnie powyższe metody kopiowania i wklejania lub konwersji działają normalnie w wersji OCR.

Aplikacja Open with Google Docs na Dysku Google automatycznie uruchamia OCR na zeskanowanych plikach PDF — jest to jedna z wygodniejszych bezpłatnych opcji, ponieważ rozpoznawanie OCR i wyodrębnianie tekstu odbywa się w jednym kroku, tworząc edytowalny dokument bezpośrednio ze skanu. Dokładność, jak zawsze, zależy od jakości skanowania.

Co ginie podczas wyodrębniania tekstu

Każde wyodrębnienie tekstu usuwa obrazy, wykresy, diagramy i formatowanie wizualne. Tabele mogą być wyświetlane jako tekst rozdzielany tabulatorami lub mogą być pomieszane, w zależności od metody ekstrakcji. Notacja matematyczna, wzory chemiczne i symbole specjalistyczne często nie przetrwają prawidłowo ekstrakcji — można je pominąć, zastąpić znakami zastępczymi lub przedstawić jako zniekształcone sekwencje. W przypadku dokumentów, w których te elementy mają znaczenie, konwersja do programu Word zamiast zwykłego tekstu pozwala zachować więcej oryginalnej struktury.

Wypróbuj PDF w programie Word

Nie wymaga instalacji. Działa bezpośrednio w Twojej przeglądarce.

Zacznij teraz →