Почему я не могу искать текст внутри моего PDF?

Нажатие Ctrl+F в PDF и ничего не найдено (или поиск панели поиска работает, но возвращает нулевые результаты даже для слов, которые вы ясно видите на странице) — это проблема текстового слоя. PDF не содержит текста, доступного для поиска, а это означает, что вы смотрите на изображение, а не на реальные символы. Исправление — OCR, и оно быстрее, чем ожидает большинство людей.

Why Can't I Search for Text Inside My PDF?

Почему в некоторых PDF-файлах нет текста, доступного для поиска

PDF может содержать два принципиально разных типа контента. Первый — это настоящий текст — символы, хранящиеся в виде текстовых данных, которые можно искать, выбирать и копировать. Второй — данные изображения — фотография страницы, где буквы представляют собой просто пиксели, визуально неотличимые от реального текста на экране, но структурно совершенно разные.

Сканированные документы всегда основаны на изображениях — сканер фотографирует страницу. Но даже документы, созданные в цифровом формате, могут в конечном итоге содержать только изображения, если они были преобразованы путем выравнивания содержимого, экспортированы из определенного программного обеспечения для проектирования без сохранения текста или сохранены с помощью рабочих процессов печати в изображение. Визуальный результат выглядит идентично; отличается только базовая структура данных.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Как проверить, есть ли в вашем PDF текстовый слой

Откройте PDF и попробуйте щелкнуть и перетащить, чтобы выбрать одно слово. Если вы можете выделить отдельные слова, а выделенный текст выделен синим цветом (или цветом выделения вашего средства просмотра), PDF имеет настоящий текстовый слой и должен быть доступен для поиска. Если щелчок и перетаскивание создают прямоугольную рамку выбора над изображением страницы, а не выделяют определенные слова, документ основан на изображении.

Второй тест: попробуйте Ctrl+A, чтобы выбрать все. В текстовом формате PDF текст выделяется по всему документу. В PDF на основе изображения ничего не выделяется визуально или вся страница выделяется как один блок изображения.

Исправление: запуск OCR

OCR (оптическое распознавание символов) считывает изображение и преобразует его в текстовые символы, добавляя текстовый слой в PDF. После OCR документ доступен для поиска — Ctrl+F находит слова, текст можно выделить и скопировать, а программы чтения с экрана могут интерпретировать содержимое.

Инструмент OCR PDF от WukongPDF обрабатывает это в браузере. Загрузите PDF на основе изображения, запустите распознавание текста и загрузите версию с возможностью поиска. Внешний вид документа не меняется — страницы выглядят идентично, но базовые данные теперь включают текстовый слой, который могут использовать инструменты поиска и выбора.

Точность распознавания зависит от качества исходного сканирования. Чистый высококонтрастный черный текст на белой бумаге с разрешением 200+ DPI и точностью 98–99 %. Блеклые чернила, сканы с низким разрешением, необычные шрифты или рукописный ввод приводят к увеличению количества ошибок. Для большинства печатных деловых документов результаты OCR достаточно точны, чтобы их можно было использовать немедленно.

Когда поиск ничего не находит, несмотря на существующий текст

Менее распространенная ситуация: в PDF есть настоящий текстовый слой, выделение текста работает, но функция поиска по-прежнему не возвращает результатов. Обычно это означает, что индекс поиска средства просмотра PDF еще не создан. Некоторые программы просмотра создают индекс в фоновом режиме после открытия — подождите несколько секунд и повторите попытку. Если проблема не устранена, попробуйте другой поисковый запрос, используя более простые термины, или откройте файл в другой программе просмотра.

Другая причина: текстовый слой существует, но содержит искаженные символы из-за проблем с кодировкой шрифта. Если вы попытаетесь скопировать предложение и вставить его в другое место, а оно появится в виде случайных символов, кодировка текста будет нарушена. OCR также решает эту проблему — оно восстанавливает текстовый слой с нуля, считывая визуальный контент и заменяя нарушенную кодировку правильным текстом.

Сделать будущие PDF доступными для поиска

Для отсканированных документов запуск OCR сразу после сканирования означает, что каждый отсканированный PDF доступен для поиска с момента его сохранения. Некоторые программы сканирования имеют встроенное распознавание текста и применяют его автоматически — включите этот параметр, если он доступен. Для сканеров без встроенной функции оптического распознавания текста быстрое оптическое распознавание текста после сканирования перед сохранением добавляет секунды на каждый документ и экономит значительное время, когда вам нужно найти что-то через несколько недель или месяцев.

Для документов, созданных в цифровом виде, убедитесь, что вы используете правильный экспорт, а не печать в изображение. При экспорте непосредственно из Word, Google Docs или любого профессионального приложения текстовый слой автоматически сохраняется. Проблема с возможностью поиска возникает только тогда, когда процесс экспорта растрирует содержимое — что обычно происходит при печати в PDF с использованием определенных драйверов или при параметрах экспорта, которые явно сглаживают документ.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →