4 причины, по которым ваш отсканированный PDF-файл не доступен для поиска (и как это исправить)

Вы сканируете документ, открываете его в программе просмотра PDF и пытаетесь найти слово — ничего. Или вы пытаетесь выделить строку текста, а курсор просто пропускает ее. Файл выглядит как PDF, но ведет себя как фотография. Это одно из самых распространенных разочарований, связанных с отсканированными документами, и этому есть определенные причины. Вот четыре из них, а также способы устранения каждого из них.

4 Reasons Your Scanned PDF Is Not Searchable (And How to Fix It)

1. Сканер сохранил изображение как изображение, а не текст PDF

Это наиболее распространенная причина. Когда сканер считывает физический документ, он фотографирует страницу. Если программа сканирования не применяет OCR (оптическое распознавание символов) во время сохранения, она просто упаковывает фотографию в контейнер PDF. Результат выглядит точно так же, как обычный PDF-файл, но не содержит текста — только пиксели, расположенные в виде букв.

Вы можете подтвердить это, нажав Ctrl+A (или Cmd+A на Mac) в программе просмотра PDF. Если ничего не выбрано или вся страница выделяется как один блок изображения, вы имеете дело с PDF-файлом, содержащим только изображения.

Исправление: запустите PDF-файл с помощью инструмента OCR PDF. OCR считывает изображение, распознает символы и встраивает в файл реальный текст, доступный для поиска. Инструмент распознавания текста WukongPDF на сайте www.wukongpdf.com делает это — загружает отсканированный PDF-файл, запускает процесс распознавания и загружает версию, в которой текст полностью доступен для поиска и выбора.

Попробуйте OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

2. Качество сканирования слишком низкое для правильной работы оптического распознавания символов

OCR — это не волшебство: оно работает путем анализа шаблонов пикселей и сопоставления их с известными формами символов. Если отсканированное изображение размыто, перекошено, слишком темное или снято с очень низким разрешением, механизму оптического распознавания символов будет сложно точно различить буквы. В результате получается либо искаженный текст, либо пропущенные символы, либо файл, который по-прежнему не доступен для поиска, поскольку распознанный текст не соответствует тому, что находится на странице.

Минимальное разрешение для надежного оптического распознавания символов обычно составляет 300 точек на дюйм. Ниже этого значения точность заметно падает. Перекошенные страницы (когда документ был расположен в сканере под небольшим углом) также вызывают проблемы, поскольку механизмы оптического распознавания символов ожидают горизонтальные текстовые строки.

Исправление: если вы можете выполнить повторное сканирование, сделайте это с разрешением 300 точек на дюйм или выше, расположив документ ровно и прямо. Если повторное сканирование невозможно, некоторые инструменты OCR включают предварительную обработку изображения, которая может исправить и улучшить отсканированное изображение перед распознаванием — найдите эту опцию, прежде чем отказываться от сканирования низкого качества.

3. Документ написан на языке, который механизм OCR не поддерживает

Механизмы OCR обучены работе с конкретными языками и наборами символов. Движок, оптимизированный для языков с латинским алфавитом (английский, французский, испанский, немецкий), будет плохо работать с арабским, китайским, японским, корейским или языками со специальными символами. Даже в латинице документы с интенсивным использованием специальных символов, диакритических знаков или необычных шрифтов могут вызвать проблемы с распознаванием.

Решение: используйте инструмент OCR, который явно поддерживает язык вашего документа. В большинстве современных инструментов OCR PDF перечислены поддерживаемые языки — проверьте перед обработкой. Если точность по-прежнему низкая после использования правильных настроек языка, качество сканирования, вероятно, является ограничивающим фактором.

4. PDF-файл имеет настройки безопасности, блокирующие извлечение текста

Некоторые PDF-файлы намеренно настроены так, чтобы предотвратить копирование или извлечение текста. Это делается через настройки разрешений PDF — документ может открываться нормально и выглядеть совершенно нормально, но инструмент выделения текста отключен, и поиск не дает результатов, хотя технически текст есть.

Это менее характерно для отсканированных документов и более характерно для PDF-файлов, которые были намеренно заблокированы создателем — определенных юридических документов, защищенных форм или файлов из организаций со строгой политикой контроля документов.

Вы можете проверить, не в этом ли проблема, зайдя в свойства документа в средстве просмотра PDF (обычно в разделе «Файл» > «Свойства» > «Безопасность») и просмотрев, какие разрешения включены. Если копирование контента указано как запрещено, это ваш ответ.

Большинство сканируемых PDF-файлов можно исправить за один шаг

В большинстве случаев к отсканированному PDF-файлу, не поддерживающему поиск, просто необходимо применить OCR. Проблема с качеством сканирования является второй наиболее распространенной причиной, и ее тоже часто можно исправить. Пропустите файл с помощью инструмента OCR PDF от WukongPDF на сайте www.wukongpdf.com — это самый быстрый способ перейти от PDF-изображения, не подходящего для поиска, к документу, в котором вы действительно сможете найти то, что ищете.

Попробуйте OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →