Tips & Tricks

Как конвертировать PDF в файл CSV

Преобразование PDF в CSV извлекает табличные данные из документа в файл значений, разделенных запятыми, который приложения для работы с электронными таблицами и базы данных могут читать напрямую. Это наиболее полезно, когда у вас есть финансовые отчеты, отчеты о продажах, инвентарные списки или любой другой PDF с большим объемом данных, с которым вам нужно работать в Excel, Google Sheets или базе данных. Не существует прямого инструмента преобразования PDF в CSV, который бы надежно работал во всех случаях — лучший подход зависит от того, что находится в PDF.

How to Convert a PDF to a CSV File

Почему не существует простого преобразования в один клик

CSV — это структурированный формат: данные организованы в строки и столбцы с четкими разделителями. PDF — это визуальный формат — контент, расположенный на странице без собственной структуры. Преобразование между ними требует определения того, какой текст принадлежит какому столбцу и строке, что является проблемой интерпретации макета, а не простым преобразованием формата.

Преобразование PDF в Excel выполняет этот этап интерпретации — оно анализирует структуру таблицы и сопоставляет содержимое с ячейками. CSV является второстепенным шагом: как только данные находятся в Excel, сохранение в формате CSV становится единственным пунктом меню. Этот двухэтапный подход (PDF → Excel → CSV) более надежен, чем попытка перейти непосредственно к CSV.

WukongPDF

Попробуйте PDF в Excel

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Рекомендуемый рабочий процесс: из PDF в Excel в CSV.

Шаг 1. Преобразуйте PDF в Excel с помощью инструмента PDF в Excel от WukongPDF на сайте www.wukongpdf.com. Загрузите PDF, загрузите файл .xlsx. Это решает самую сложную часть — интерпретацию структуры таблицы и сопоставление данных с ячейками.

Шаг 2. Откройте файл Excel и просмотрите данные. Убедитесь, что столбцы правильно разделены, заголовки находятся в правой строке и данные не объединены неправильно между ячейками. Прежде чем продолжить, устраните все очевидные проблемы.

Шаг 3. Сохраните в формате CSV. В Excel перейдите в раздел «Файл» > Сохранить как, измените тип файла на CSV (с разделителями-запятыми) и сохраните. Excel предупредит, что некоторые функции несовместимы с CSV — нажмите «ОК». Результатом является обычный текстовый файл со значениями, разделяемыми запятыми, который может импортировать любое приложение базы данных или электронных таблиц.

Отсканированные PDF: сначала OCR

Если PDF содержит отсканированные таблицы — изображения страниц, а не цифровой текст — преобразование PDF в Excel не будет работать без предварительного распознавания текста. Для работы конвертеру нужен реальный текст, а не пиксельные изображения текста.

Сначала запустите Отсканированный PDF с помощью инструмента OCR, чтобы добавить текстовый слой, а затем попытайтесь преобразовать PDF в Excel в версии, обработанной OCR. Точность зависит от качества сканирования: чистое сканирование с высоким разрешением хорошо отформатированных таблиц дает гораздо лучшие результаты, чем сканирование низкого качества или искаженное сканирование. После оптического распознавания текста и преобразования внимательно просмотрите выходные данные Excel перед сохранением в формате CSV, поскольку ошибки оптического распознавания чисел в числах с большой вероятностью могут вызвать проблемы при последующей обработке.

Использование Adobe Acrobat Pro для сложных таблиц

Для сложных таблиц — нескольких таблиц на странице, таблиц, охватывающих страницы, таблиц с объединенными ячейками или неправильной структурой — функция экспорта в электронную таблицу Adobe Acrobat Pro (Файл > Экспорт в таблицу > Рабочая книга Microsoft Excel) часто дает более чистые результаты, чем инструменты на основе браузера. Алгоритм обнаружения таблиц в Acrobat является зрелым и лучше обрабатывает крайние случаи.

После экспорта в Excel из Acrobat преобразование CSV такое же: просмотрите данные, устраните все проблемы и сохраните их в формате CSV. Наличие Acrobat Pro не обязательно для простых таблиц, но стоит знать, что такая возможность существует для таблиц, которые искажаются средствами браузера.

Копирование и вставка для небольших простых таблиц

Для небольшой таблицы (десять строк и три столбца) копирование и вставка вручную из PDF в Excel может оказаться быстрее, чем настройка и устранение неполадок инструмента преобразования. Выделите текст таблицы в средстве просмотра PDF, скопируйте и вставьте в Excel, затем используйте «Данные» > Текст по столбцам, чтобы при необходимости разделить вставленный контент на отдельные столбцы.

Подход копирования-вставки быстро выходит из строя для больших таблиц или таблиц со сложной структурой. Для всего, что превышает 50 строк, время, сэкономленное с помощью надлежащего инструмента преобразования — даже с последующей ручной очисткой — превышает время, потраченное на копирование и исправление ошибок.

WukongPDF

Попробуйте PDF в Excel

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →