Да, но для этого требуется дополнительный шаг по сравнению с преобразованием PDF, созданного в цифровом формате. Отсканированный PDF — это изображение, а не документ со структурированными данными, поэтому процесс преобразования должен сначала распознать текст и числа на изображении, прежде чем он сможет поместить их в ячейки электронной таблицы. Когда это работает хорошо, экономия времени значительна. Если этого не происходит, необходима очистка.

Почему отсканированные PDF-файлы отличаются
Созданный в цифровом формате PDF хранит данные в виде реальных символов — чисел, которые можно прочитать напрямую и поместить в ячейки. В отсканированном формате PDF страницы сохраняются в виде фотографий. «Числа»; в отсканированной таблице — это пиксели, которые выглядят как цифры. Чтобы извлечь их в Excel, программное обеспечение должно просмотреть эти пиксели, определить, какие символы они представляют, а затем выяснить структуру таблицы — какие пиксели образуют строки, какие — столбцы, где находятся границы ячеек.
Этот процесс — оптическое распознавание символов в сочетании с определением структуры таблицы — более сложен, чем простое преобразование PDF в Excel, и повышает вероятность ошибок.
Попробуйте PDF в Excel
Никакой установки не требуется. Работает прямо в вашем браузере.
Что влияет на качество конверсии
Качество сканирования является важнейшим фактором. Чистое, высококонтрастное сканирование четко напечатанной таблицы с разрешением 200+ DPI хорошо конвертируется — оптическое распознавание символов считывает символы точно, а структура таблицы узнаваема. Сканирование с низким разрешением, блеклый документ, перекошенная страница или рукописные цифры в любых ячейках дают значительно худшие результаты.
Сложность структуры таблицы также имеет значение. Простая сетка с четкими границами и одинаковой высотой строк преобразуется более надежно, чем сложная таблица с объединенными ячейками, охватывающими заголовками, вложенными подтаблицами или строками различной высоты. Более простая структура означает меньше решений, которые должно принимать программное обеспечение для преобразования, и меньше возможностей для того, чтобы эти решения были неправильными.
Как это сделать
Инструмент PDF в Excel от WukongPDF обрабатывает отсканированные файлы PDF напрямую — этап распознавания запускается автоматически как часть преобразования. Загрузите отсканированный PDF, выберите Excel в качестве выходного формата и загрузите. Для чистого сканирования хорошо структурированных таблиц выходные данные часто можно использовать с минимальной очисткой. Откройте файл Excel, просмотрите данные, исправьте все ошибки распознавания (неправильно прочитанные символы, объединенные или разделенные ячейки), и электронная таблица готова к использованию.
Adobe Acrobat Pro обеспечивает особенно эффективное преобразование отсканированных PDF в Excel с лучшим распознаванием таблиц, чем большинство бесплатных инструментов. Если у вас есть к нему доступ и документ сложный, его стоит использовать для первоначального преобразования, даже если вы выполняете очистку в другом месте.
Что проверить после преобразования
Никогда не доверяйте отсканированному преобразованию PDF без проверки, особенно для числовых данных. OCR обычно путает определенные пары символов: 0 и O, 1 и l, 5 и S, 8 и B. Финансовая таблица, в которой некоторые нули читаются как буква O, будет иметь неправильные формулы и неверные итоговые значения. Прежде чем использовать данные для чего-то важного, проверьте выборочные показатели по исходному скану.
Проверьте выравнивание столбцов: при преобразовании иногда данные помещаются не в тот столбец, если исходная таблица имела неправильные интервалы или ячейки были объединены. Сравните структуру вывода Excel с исходным отсканированным изображением, страница за страницей, а не просто выборочно проверяйте отдельные значения.
Когда ввод вручную выполняется быстрее
Для очень коротких таблиц (менее 20 строк) или таблиц со сложной структурой, которые плохо преобразуются, ввод данных вручную иногда оказывается быстрее, чем преобразование плюс очистка. Написание таблицы из 10 строк и 5 столбцов занимает около трех минут; если преобразование дает результат, требующий существенной коррекции, вы потратили больше времени, чем потребовалось бы при прямом вводе.
Подход с преобразованием наиболее эффективен для длинных таблиц — десятков или сотен строк, ввод которых вручную может занять несколько часов. Для них даже несовершенное преобразование с очисткой почти всегда выполняется быстрее, чем начинать с нуля.
Попробуйте PDF в Excel
Никакой установки не требуется. Работает прямо в вашем браузере.
