Почему мой PDF недоступен для поиска?

PDF, в котором сочетание клавиш Ctrl+F ничего не находит, где нельзя выделить или скопировать текст и где нажатие на текст рисует прямоугольное поле, а не выделяет отдельные слова — это документ без текстового слоя. Он хранится в виде изображения, а не в виде текста. Это означает, что читатель может видеть символы, но программное обеспечение не может интерпретировать их как символы.

Почему в некоторых PDF-файлах нет текстового слоя

Самая распространенная причина — сканирование. Когда физический документ сканируется и сохраняется в формате PDF, результатом является фотография страницы, завернутая в контейнер PDF. Сканер фиксирует, как документ выглядит в виде изображения, но не знает, что это за символы. Без отдельного этапа оптического распознавания символов для интерпретации изображения и добавления текстовых данных PDF полностью основан на изображениях.

Другие причины: файлы PDF, экспортированные из определенного программного обеспечения для проектирования, которое обрабатывает весь контент как графику, а не сохраняет текст как текст, файлы PDF, в которых текст был преобразован в контуры (метод дизайна, который исправляет внешний вид, но уничтожает текстовый слой), и файлы PDF, созданные путем фотографирования документов с помощью телефона без какого-либо приложения для сканирования, применяющего распознавание символов.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Подтверждение проблемы

Самый быстрый тест: попробуйте выделить слово, щелкнув по нему и перетащив. Если отдельные слова или символы выделены, PDF имеет текстовый слой и доступен для поиска — в этом случае что-то другое приводит к сбою поиска (см. раздел ниже о неработающих текстовых слоях). Если вся область страницы выделяется в виде прямоугольника независимо от того, куда вы перетаскиваете, страница сохраняется как изображение без текста.

Вторая проверка: нажмите Ctrl+A, чтобы выбрать все. В документе с текстовым слоем будет выделен весь текст, и вы сможете его скопировать. В PDF, содержащем только изображения, Ctrl+A выбирает страницу как целый объект — при копировании текст не помещается в буфер обмена.

Добавление текстового слоя с помощью OCR

OCR (оптическое распознавание символов) считывает изображение на каждой странице и добавляет скрытый текстовый слой, содержащий распознанные символы. Внешний вид документа не меняется — он по-прежнему выглядит как исходное отсканированное изображение, — но текст становится доступным для выбора, копирования и поиска.

Инструмент OCR PDF от WukongPDF обрабатывает это в браузере: загружает отсканированный PDF, запускает распознавание текста и загружает версию с возможностью поиска. Для чистых высококонтрастных сканирований стандартного печатного текста точность достаточно высока, чтобы полученный текстовый слой был надежным для поиска. Откройте обработанный файл и нажмите Ctrl+F для проверки — поиск слова, которое четко отображается в документе, должен найти его немедленно.

Когда текстовый слой существует, но поиск по-прежнему не работает

Иногда в PDF есть текст, который можно выделить, но сочетание клавиш Ctrl+F все равно не позволяет его найти. Обычно это сводится к одной из трех вещей. Во-первых, кодировка шрифта может быть нарушена — в PDF есть текстовые данные, но таблица сопоставления символов повреждена, поэтому зритель может выделить что-то, но не знает, какие символы какие. Во-вторых, текстовый слой OCR может содержать ошибки в конкретном слове, которое вы ищете. В-третьих, некоторые PDF используют символы Юникода или специальные кодировки, которые не соответствуют стандартному поведению поиска.

При проблемах с кодированием запуск PDF через конвертер PDF для извлечения и повторного встраивания текста иногда решает проблему сопоставления символов. Преобразование в Word, при котором текст проходит этап чистого перекодирования, а затем экспортируется обратно в PDF, также может устранить проблемы поиска, вызванные поврежденной кодировкой шрифта.

Предотвращение проблемы при будущих сканированиях

Если вы регулярно сканируете документы, которые должны быть доступны для поиска, встройте OCR в рабочий процесс сканирования, а не добавляйте его позже. Большинство современных программ для сканирования имеют возможность автоматически применять OCR и напрямую сохранять PDF с возможностью поиска. Приложения для сканирования телефона, такие как Microsoft Lens, Adobe Scan и функция камеры Google Drive, по умолчанию применяют OCR и с самого начала создают доступные для поиска PDF — без отдельного этапа обработки.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →