Кажется, что PDF с таблицей данных легко скопировать в Excel — пока вы не попробуете и не обнаружите, что данные выглядят беспорядочно в одном столбце, или с разрывами строк в неправильных местах, или с объединенными ячейками, которые не соответствуют исходной структуре таблицы. Чистое получение данных таблицы из PDF в Excel требует знания того, какой метод работает для вашего конкретного типа PDF.

Почему копирование и вставка обычно дают неприятные результаты
PDF хранит содержимое таблицы как позиционированный текст — отдельные текстовые элементы, расположенные в определенных координатах на странице, а не как структурированные данные таблицы со строками и столбцами. При копировании и вставке из PDF вы копируете текст в том порядке, в котором он появляется во внутренней структуре файла, что может не соответствовать порядку визуального чтения. В таблицу с тремя столбцами и десятью строками можно вставить тридцать строк текста без разделения столбцов.
Некоторые программы просмотра PDF обрабатывают обнаружение таблицы во время вставки лучше, чем другие. Копия Adobe Acrobat Reader имеет тенденцию давать лучшие результаты, чем программы просмотра на основе браузера. Но для сложных таблиц копирование и вставка редко бывают достаточно чистыми, чтобы их можно было использовать без значительной ручной очистки.
Попробуйте PDF в Excel
Никакой установки не требуется. Работает прямо в вашем браузере.
Лучший способ: конвертировать PDF в Excel напрямую
Специальный преобразователь PDF в Excel анализирует макет PDF, определяет структуры таблиц и отображает содержимое в ячейки электронной таблицы. В результате получается файл Excel, в котором строки и столбцы таблицы соответствуют исходному макету PDF — гораздо чище, чем при копипасте.
Инструмент PDF в Excel от WukongPDF на сайте www.wukongpdf.com позволяет выполнить эту задачу: загрузить PDF, загрузить файл Excel. Для цифровых PDF-файлов с четкой табличной структурой преобразование обычно достаточно чистое, чтобы его можно было использовать с минимальной коррекцией. Для сложных таблиц с объединенными ячейками, вложенными заголовками или неправильной структурой некоторая ручная очистка по-прежнему необходима, но гораздо меньше, чем при копипасте.
Отсканированные PDF: сначала распознавание текста, затем преобразование
Если PDF, содержащий таблицу, представляет собой отсканированное изображение страницы, а не цифровой документ, копирование и вставка вообще не сработают (нет текста для копирования), а прямое преобразование даст плохие результаты. Отсканированные таблицы сначала требуют обработки OCR для извлечения реального текста, а затем текст необходимо интерпретировать как структуру таблицы.
Некоторые конвертеры PDF в Excel автоматически применяют распознавание текста при обнаружении отсканированного документа. Другие требуют, чтобы вы сначала запустили OCR, а затем конвертировали. Прежде чем приступать к преобразованию, проверьте качество сканирования: таблицы с четкими границами строк и столбцов преобразуются лучше, чем таблицы со слабыми линиями или нерегулярными интервалами.
Adobe Acrobat Pro: экспорт в Excel
Adobe Acrobat Pro имеет встроенную функцию экспорта в Excel («Файл» > «Экспорт в» > «Электронная таблица» > «Книга Microsoft Excel»). Это один из наиболее точных доступных инструментов извлечения таблиц — алгоритм обнаружения таблиц Acrobat является отработанным и обрабатывает широкий спектр типов таблиц.
При экспорте создается файл Excel, в котором каждая таблица на каждой странице размещается на отдельном листе или разделе. Сложные многостраничные таблицы, таблицы с повторяющимися заголовками и таблицы с объединенными ячейками обрабатываются достаточно хорошо. Если у вас есть Acrobat Pro, это самый качественный вариант извлечения таблиц.
Когда копирование и вставка — единственный вариант: как это исправить
Если инструмент преобразования недоступен и вам необходимо использовать копирование и вставку, эти шаги сводят к минимуму работу по очистке:
- В Adobe Reader выделите текст таблицы и используйте «Редактировать > Копировать с форматированием, если оно доступно — при этом сохраняется больше табличной структуры, чем при простой копии.
- Сначала вставляйте в текстовый редактор (Блокнот, TextEdit), а не непосредственно в Excel — это позволяет вам увидеть необработанную структуру без форматирования ячеек Excel, усложняющего ситуацию.
- Скопируйте текст из текстового редактора и вставьте в Excel с помощью специальной вставки > Текст
- Используйте функцию Excel «Текст в столбцы» («Данные» > «Текст в столбцы»), чтобы разделить вставленные данные на отдельные столбцы на основе разделителя или фиксированной ширины.
Когда ни один инструмент не дает чистого результата
Некоторые таблицы действительно сложны для автоматизированных инструментов — вложенные таблицы внутри таблиц, таблицы со сложными шаблонами объединенных ячеек, таблицы, занимающие несколько страниц с повторяющимися заголовками, или таблицы, в которых данные визуально структурированы без формальной разметки таблицы в PDF. В таких случаях наиболее практичным подходом может быть ввод данных вручную с использованием PDF в качестве ссылки. Для небольших таблиц это занимает меньше времени, чем попытка заставить автоматизированный инструмент выдать чистый результат, а затем вручную исправить все ошибки.
Попробуйте PDF в Excel
Никакой установки не требуется. Работает прямо в вашем браузере.
