Tips & Tricks

Как работать с таблицами PDF: 4 совета по извлечению данных

Получение данных из таблицы PDF кажется простым, пока вы на самом деле не попробуете это сделать. Копипаст дает вам беспорядок с невыровненным текстом. Скриншоты дают вам изображение, а не цифры, с которыми вы можете работать. А перепечатывание таблицы из 200 строк вручную — это ни для кого не лучший вариант. Есть более разумные подходы — вот четыре совета, которые сделают извлечение данных таблицы PDF в Excel значительно менее болезненным.

How to Handle PDF Tables: 4 Tips for Extracting Data

1. Узнайте, является ли ваша таблица PDF реальными данными или изображением

Прежде всего, выясните, с чем вы имеете дело. Нажмите на ячейку в таблице. Если вы можете выделить отдельные фрагменты текста, таблица будет состоять из реального текста, который можно выделить, и извлечь его будет несложно. Если при нажатии выделяется вся таблица как блок или вообще ничего не происходит, вы смотрите на изображение таблицы.

Текстовые таблицы можно преобразовать непосредственно в Excel с помощью конвертера PDF в Excel. Таблицам на основе изображений сначала требуется распознавание текста, чтобы превратить визуальные данные в реальный текст, прежде чем можно будет выполнить какое-либо извлечение. Знание того, какой из них у вас есть, убережет вас от применения неправильного подхода и сомнений в том, почему он не работает.

Отсканированные документы, фотографии электронных таблиц и PDF-файлы, экспортированные из некоторых старых программ, являются обычными виновниками таблиц на основе изображений. Все, что экспортировано непосредственно из Excel, Word или современного инструмента отчетности, почти всегда будет содержать настоящий текст.

WukongPDF

Попробуйте PDF в Excel

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

2. Используйте конвертер PDF в Excel вместо копирования и вставки

Копирование и вставка таблицы из PDF в Excel почти никогда не работает без ошибок. Столбцы сворачиваются, строки сливаются, числа отделяются от своих единиц измерения, и вы тратите больше времени на очистку, чем потребовалось бы для повторного ввода исходных данных. Это надежный способ внести ошибки в набор данных, даже не осознавая этого.

Специальный преобразователь PDF в Excel считывает структуру таблицы — строки, столбцы, объединенные ячейки — и отображает ее в соответствующую электронную таблицу. Вывод не всегда идеален, особенно для сложных многоуровневых заголовков, но он значительно чище, чем вставка в буфер обмена. Инструмент PDF в Excel от WukongPDF на сайте www.wukongpdf.com справляется с этой задачей, не требуя установки программного обеспечения — загрузите PDF-файл, загрузите электронную таблицу.

3. Извлекайте только те страницы, которые вам нужны

Если ваш PDF-файл представляет собой 50-страничный отчет, а нужная вам таблица находится на страницах с 12 по 14, нет смысла прогонять весь документ через конвертер. Сначала извлеките эти три страницы в отдельный PDF-файл, а затем преобразуйте этот файл меньшего размера в Excel.

У этого подхода есть два преимущества: конвертер фокусируется на соответствующих страницах, а не анализирует нерелевантный контент, а вывод становится более чистым, поскольку в нем меньше шума от окружающего текста, верхних и нижних колонтитулов и других элементов страницы, которые могут мешать обнаружению таблицы.

Используйте разделитель PDF-файлов, чтобы сначала извлечь страницы, а затем запустить извлечение. Это добавляет один шаг, но обычно дает лучшие результаты.

4. Будьте готовы к очистке — и знайте, где искать

Даже при наличии хорошего конвертера почти всегда необходима некоторая ручная очистка. Вопрос в том, где проверять, чтобы выявить проблемы до того, как они вызовут проблемы в дальнейшем.

Наиболее распространенные проблемы после преобразования таблицы PDF в Excel:

  • Числа, хранящиеся в виде текста: ячейки, которые выглядят как числа, но Excel обрабатывает их как текст и не суммирует. Проверьте, найдя в столбце числа, выровненные по левому краю — они должны быть выровнены по правому краю, если Excel распознает их как числовые.
  • Объединенные ячейки, которые не были перенесены: заголовок, охватывающий три столбца в PDF-файле, может оказаться только в одной ячейке Excel, оставив остальные пустыми.
  • Разрывы строк внутри ячеек: многострочное содержимое в ячейке PDF иногда разбивается на несколько строк в Excel.
  • Символы валюты и процентов: иногда они удаляются или оказываются в соседних ячейках, а не присоединяются к числу.

Быстрое сканирование первых нескольких строк и выборочная проверка итогов по сравнению с исходным PDF-файлом обычно выявляет что-то критическое. Для больших наборов данных вычисление СУММЫ по столбцу и сравнение ее с итоговым значением в PDF-файле — это быстрая проверка правильности передачи чисел.

Правильный инструмент делает задачу управляемой

Таблицы PDF существуют во всех отраслях — финансовых отчетах, данных исследований, правительственных документах, экспорте запасов. Преобразование этих данных в удобную электронную таблицу не обязательно означает час ручной работы. Надежный конвертер PDF в Excel, такой как WukongPDF на www.wukongpdf.com, возьмет на себя тяжелую работу, а знание того, что проверять потом, обеспечит надежность результатов.

WukongPDF

Попробуйте PDF в Excel

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →