Как конвертировать PDF в текст

Извлечение текста из PDF — в виде обычного текстового файла или в редактируемый документ — является одной из наиболее часто необходимых операций PDF. Подход, который работает лучше всего, зависит от того, имеет ли PDF реальный текстовый слой или отсканированное изображение, а также от того, что вы планируете делать с извлеченным текстом.

Самый простой метод: скопировать и вставить

Для PDF с выбираемым текстом копирование и вставка в текстовый редактор или текстовый процессор зачастую является самым быстрым подходом. Откройте PDF, нажмите Ctrl+A, чтобы выбрать все, Ctrl+C, чтобы скопировать, затем Ctrl+V, чтобы вставить текст в Блокнот, TextEdit, Word или туда, где вам нужен текст. Это хорошо работает для коротких документов или когда вам просто нужно быстро получить контент, не заботясь о сохранении структуры.

Ограничение: копипаста не сохраняет форматирование, а в многоколоночных PDF-файлах или документах со сложным макетом текст часто выводится в неправильном порядке — столбцы чередуются, сноски появляются в середине абзаца, верхние и нижние колонтитулы смешиваются с основным текстом. Для простого линейного документа это не проблема. Для сложных макетов это может затруднить работу с извлеченным текстом.

Попробуйте PDF в Word

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Преобразование в Word для лучшей структуры

Когда при извлечении текста необходимо сохранить абзацы, заголовки и базовую структуру — чтобы вы могли редактировать контент в текстовом процессоре, а не просто читать его как обычный текст — преобразование в Word — лучший путь, чем копирование и вставка. Конвертер PDF анализирует структуру документа и пытается восстановить абзацы, заголовки, списки и таблицы как полноценные элементы Word, а не просто выгружать весь текст в порядке чтения.

Google Docs делает это бесплатно: загрузите PDF на Диск, откройте его в Google Docs, и текст появится с разумно сохраненной структурой. Для более точного преобразования сложных документов специальные инструменты преобразования PDF в Word выполняют анализ макета лучше, чем встроенный импортер Google.

Извлечение в обычный текст (.txt)

Для обработки данных, передачи содержимого в другие инструменты или архивирования только текстового содержимого без какого-либо форматирования простое извлечение .txt удобнее, чем преобразование Word. Adobe Acrobat (платная версия) может сохранить PDF как обычный текст через «Файл» → «Экспорт в» → «Текст (обычный)». Бесплатная программа Acrobat Reader не позволяет сохранять в текст, но вы можете скопировать все и вставить в Блокнот, что фактически дает тот же результат.

Для пакетного извлечения или программного использования Python с библиотекой pdfplumber или PyPDF2 автоматически извлекает текст из нескольких PDF, что полезно, когда вам нужно обработать множество документов. Инструменты командной строки, такие как pdftotext (часть служебного пакета Poppler, доступного на Mac через Homebrew и Linux через менеджеры пакетов), эффективно делают то же самое без написания какого-либо кода.

Отсканированные PDF: сначала OCR

Для отсканированных PDF-файлов без текстового слоя ни один из вышеперечисленных методов не работает — текст для извлечения отсутствует. Страница сохраняется как изображение. Прежде чем любое извлечение станет возможным, сначала необходимо запустить OCR, чтобы распознать символы и создать текстовый слой. Инструмент OCR PDF WukongPDF добавляет текстовый слой в PDF; после этого методы копирования-вставки или преобразования, описанные выше, нормально работают в версии с оптическим распознаванием текста.

Функция Open with Google Docs на Google Диске также автоматически запускает распознавание текста на отсканированных файлах PDF — это один из наиболее удобных бесплатных вариантов, поскольку распознавание текста и извлечение текста выполняются за один шаг, создавая редактируемый документ непосредственно из сканирования. Точность, как всегда, зависит от качества сканирования.

Что теряется при извлечении текста

Любое извлечение текста удаляет изображения, диаграммы, диаграммы и визуальное форматирование. Таблицы могут отображаться в виде текста, разделенного табуляцией, или могут быть зашифрованы в зависимости от метода извлечения. Математические обозначения, химические формулы и специальные символы часто не сохраняются правильно при извлечении — они могут быть опущены, заменены символами-заполнителями или отображены как искаженные последовательности. Для документов, в которых эти элементы имеют значение, преобразование в Word, а не в обычный текст, сохраняет большую часть исходной структуры.

Попробуйте PDF в Word

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →