Почему при копировании текста из PDF добавляются дополнительные разрывы строк?

Вы копируете абзац из PDF и вставляете его в другое место, и каждая строка заканчивается жестким возвратом — текст не перекомпоновывается, он просто разрывается там, где строка заканчивается на странице. Это одна из самых распространенных неприятностей PDF, и у нее есть конкретная техническая причина, объясняющая, почему это происходит и что с этим можно сделать.

Why Does Copying Text From a PDF Add Extra Line Breaks?

Почему это происходит: как PDF хранит текст

PDF не хранит текст в виде абзацев, как это делается в Word или Google Docs. Вместо этого он хранит отдельные символы или небольшие группы символов, каждый из которых имеет определенную позицию на странице — координаты X и Y, которые размещают каждый фрагмент текста именно там, где он должен появиться. Средство визуализации PDF рисует эти расположенные фрагменты для получения визуального результата, который вы видите.

Когда вы копируете текст, программа просмотра PDF должна восстановить текстовый поток из этих позиционированных фрагментов. Он читает символы по порядку и должен угадать, где заканчивается одна строка и начинается другая, основываясь на изменениях вертикального положения. Когда он обнаруживает разрыв строки — переход в позицию Y — он вставляет символ разрыва строки. В результате каждая визуальная строка в PDF становится отдельной строкой вставленного текста.

Это фундаментальная характеристика работы извлечения текста PDF, а не ошибка какой-либо конкретной программы просмотра. Некоторые PDF содержат структурную информацию, которая помогает зрителям различать мягкие переносы строк (внутри абзаца) и жесткие разрывы абзацев, но многие из них этого не делают, особенно старые PDF или те, которые были экспортированы из определенного программного обеспечения.

Попробуйте отредактировать PDF

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Когда дела обстоят хуже: макеты с несколькими столбцами

Макеты с несколькими столбцами еще больше усугубляют эту проблему. Когда текст располагается в двух или трех столбцах, средство просмотра PDF, извлекающее текст в порядке слева направо и сверху вниз, часто чередует текст из разных столбцов — строку из левого столбца, затем строку из правого столбца, затем следующую строку слева. Полученная паста перемешивается и требует значительной ручной очистки.

Этим славятся академические статьи в формате двух колонок. При копировании абзаца из исследовательской статьи PDF часто создаются чередующиеся фрагменты из обоих столбцов, а не чистый текстовый блок из одной колонки.

Быстрые исправления для небольших объемов текста

Для нескольких абзацев самое быстрое исправление — это операция поиска и замены в текстовом редакторе или текстовом процессоре после вставки. Вы хотите заменить одинарные разрывы строк (которые являются нежелательными внутри абзацев), сохраняя при этом двойные разрывы строк (которые разделяют настоящие абзацы).

В Microsoft Word используйте Find & Заменить подстановочными знаками: замените отдельные знаки абзаца (^p), за которыми не следует другой знак абзаца, заменив их пробелом. В обычном текстовом редакторе большинство инструментов поиска и замены позволяют делать то же самое с помощью регулярных выражений. Это превращает 30-строчную неработающую вставку в правильно перекомпонованный абзац за считанные секунды.

Лучшие подходы к работе с большими объемами текста

Для извлечения больших объемов текста из PDF копирование и вставка — неправильный инструмент. Преобразование PDF в Word с помощью преобразователя PDF дает лучшие результаты, поскольку процесс преобразования пытается реконструировать структуру документа — определяя абзацы, заголовки и макет — а не просто извлекая необработанные позиции символов.

Преобразованный документ Word по-прежнему требует проверки, особенно для сложных макетов, но структура абзацев обычно остается неизменной, и вы не сталкиваетесь с построчными разрывами во всем документе.

Усовершенствования средства просмотра

Некоторые программы просмотра PDF справляются с извлечением текста лучше, чем другие. Adobe Acrobat Reader имеет функцию «Копировать с форматированием». вариант, который лучше восстанавливает абзацы, чем базовый текст. Если вы регулярно извлекаете текст, при тестировании разных программ просмотра одного и того же PDF иногда оказывается, что результат получается более чистым.

В конечном итоге качество извлечения текста зависит от того, как был создан PDF. Хорошо структурированный PDF, экспортированный из современного текстового процессора, с правильной разметкой абзацев, аккуратно извлекается. PDF, который был распечатан в файл, преобразован из изображения или экспортирован из программного обеспечения, не встраивающего структурную информацию, всегда будет отображать неработающий текст при копии. Для этих файлов преобразование в Word — надежный путь.

Попробуйте отредактировать PDF

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →