Почему со отсканированными документами работать сложнее, чем вы думаете

Сканирование документа и сохранение его в формате PDF кажется решенной проблемой. Вы вкладываете бумагу, получаете файл, он выглядит как обычный PDF. Работа выполнена. Но это не совсем так. Отсканированный PDF выглядит как документ, но ведет себя как фотография, и это различие создает удивительное количество практических проблем, которые застают людей врасплох, когда они действительно пытаются работать с файлом.

Why Scanned Documents Are Harder to Work With Than You Think

Главное недоразумение: это похоже на текст, но это не так

Когда вы читаете отсканированный документ на экране, ваш мозг видит текст — слова, предложения, абзацы. Но программа просмотра PDF показывает вам изображение текста, а не сам текст. Каждая буква представляет собой набор пикселей, который выглядит как буква. Здесь нет базовых данных о персонажах, нет контента, доступного для поиска, нет структуры, которую компьютер мог бы интерпретировать.

Быстрый способ убедиться в этом: попробуйте нажать и перетащить, чтобы выбрать слово в документе. В текстовом файле PDF курсор изменится, и вы сможете выделить отдельные слова. При сканировании PDF ничего не происходит — или вся страница выделяется как один блок изображения. Эта разница является коренной причиной большинства последующих проблем.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Вы не можете искать внутри

Нажмите Ctrl+F в отсканированном PDF, и поиск ничего не найдет — или он ищет имя файла, а не его содержимое. Для двухстраничной формы это незначительное неудобство. Для контракта на 200 страниц, руководства на 500 страниц или архива счетов за десять лет невозможность поиска является серьезным ограничением. Вам придется прочитать весь документ вручную, чтобы найти то, что вы ищете.

Это поправимо. Запуск отсканированного PDF с помощью инструмента OCR PDF преобразует содержимое изображения в реальный текст и встраивает его в файл. После OCR документ полностью доступен для поиска — сочетание клавиш Ctrl+F находит слова, а файл отображается в поиске операционной системы по его содержимому, а не только по имени. Инструмент оптического распознавания символов WukongPDF на сайте www.wukongpdf.com решает эту проблему за один шаг.

Копирование текста не принесет вам никакой пользы

Хотите перенести пункт из отсканированного контракта в электронное письмо? Или извлечь таблицу цифр из отсканированного отчета в электронную таблицу? В текстовом формате PDF вы выбираете и копируете. Отсканировав PDF, вы либо ничего не получите, либо получите элементарное распознавание текста, которое ваша программа просмотра PDF запускает на лету, что часто бывает достаточно неточным, чтобы потребовать существенной коррекции.

Люди решают эту проблему, переписывая контент вручную, что медленно и приводит к ошибкам. Или делают скриншоты текста и пытаются читать по ним, что неудобно. Правильное распознавание текста в документе сначала устраняет все это — как только текст становится реальным, его копирование работает точно так, как ожидалось.

Отсканированные PDF-файлы непропорционально велики

Десятистраничный текстовый документ, экспортированный из Word, может иметь размер 200 КБ. Те же десять страниц, отсканированные с разрешением 300 точек на дюйм, могут иметь размер 15 МБ. Это не опечатка — отсканированные файлы PDF сохраняют каждую страницу как изображение с высоким разрешением, а данные изображения по своей природе намного тяжелее, чем закодированный текст.

Это создает практические проблемы: ограничения на вложения электронной почты, медленная загрузка на порталы, масштабные затраты на хранение. Исправление — сжатие: хороший инструмент PDF Compression существенно снижает качество отсканированных PDF, часто на 60–80 %, сохраняя при этом изображения читабельными. Для больших архивов отсканированных документов сжатие перед хранением стоит делать систематически.

Они недоступны для программ чтения с экрана

Программы чтения с экрана — программное обеспечение, используемое людьми с нарушениями зрения для чтения документов вслух — работают путем чтения текстового содержимого файла. Отсканированный PDF не содержит текстового содержимого, которое могла бы найти программа чтения с экрана. Весь документ для него невидим. Это делает отсканированные PDF-файлы серьезной проблемой доступности в любом контексте, где документы должны быть доступны для использования людьми с нарушениями зрения.

В профессиональном и государственном контексте это не просто вопрос вежливости — требования соответствия доступности во многих юрисдикциях применяются к цифровым документам, а PDF, содержащий только изображения, не соответствует этим требованиям. OCR и здесь является техническим решением: как только текст станет реальным, программы чтения с экрана смогут с ним работать.

Исправить проблему проще, чем кажется на первый взгляд

Все эти проблемы — контент, который невозможно найти, текст, который невозможно скопировать, файлы слишком большого размера, проблемы с доступом — имеют одну и ту же основную причину и, по сути, одно и то же решение. Пропустите отсканированный PDF через OCR, чтобы сделать текст реальным, а затем сожмите его, чтобы уменьшить размер файла. Два шага, и документ будет вести себя как настоящий PDF, а не как замаскированная фотография. Если с документами вам придется работать более одного раза, это стоит сделать до того, как они попадут в хранилище, а не после того, как вы уже потратили время на обходные пути.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →