Как сделать PDF доступным для поиска

PDF с возможностью поиска — это файл, в котором текст хранится в виде реальных символов в файле, а не в виде изображения. Когда вы нажимаете Ctrl+F и вводите слово, зритель может его найти. Когда вы выделяете текст и копируете его, копируются настоящие символы. Для файлов PDF, созданных в цифровом формате, это происходит автоматически. Для отсканированных файлов PDF вам потребуется OCR, чтобы добавить текстовый слой.

Как определить, доступен ли PDF для поиска

Откройте PDF и попробуйте выбрать слово, щелкнув и перетащив его. Если отдельные слова выделены и вы можете их скопировать, значит, в PDF уже есть текстовый слой — по нему можно осуществлять поиск. Если щелчок рисует прямоугольное выделение по всей области, а не выбирает отдельные слова, страница сохраняется в виде изображения без текстового слоя. Вот тогда вам и понадобится OCR.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Запуск OCR для добавления текстового слоя

Инструмент OCR PDF компании WukongPDF обрабатывает отсканированные файлы PDF в браузере и возвращает версию, в которой текст распознан и вставлен вместе с исходным сканированным изображением. Страница выглядит идентично — тот же внешний вид, то же качество сканирования — но Ctrl+F теперь находит слова, а текст можно выделить и скопировать. Загрузите отсканированный PDF, запустите OCR и загрузите версию с возможностью поиска.

Adobe Acrobat Pro также имеет надежный механизм оптического распознавания символов в меню «Инструменты» → «Сканирование и сканирование». OCR → Распознать текст. Его точность при сложном сканировании — блеклый текст, необычные шрифты, нелатинские шрифты — обычно лучше, чем у инструментов браузера, хотя для стандартного печатного текста разница невелика. Если вы обрабатываете большие объемы документов, где точность имеет значение, OCR Acrobat стоит вложений.

Точность OCR и языковая поддержка

Точность оптического распознавания символов во многом зависит от качества сканирования. Чистое, высококонтрастное сканирование профессионально напечатанного документа с разрешением 200 точек на дюйм или выше обычно преобразуется с точностью символов 98–99 % — практически без ошибок для практических целей. Выцветшая фотокопия, скан, сделанный под углом, или документ с рукописными аннотациями будут содержать больше ошибок, требующих исправления вручную.

Большинство инструментов OCR автоматически определяют язык документа и используют модели для конкретного языка для повышения точности. Если в документе постоянно неправильно распознаются определенные символы, проверьте, правильно ли определяется язык — принудительное использование правильного языка в настройках OCR часто дает заметную разницу, особенно для документов с диакритическими символами или нелатинскими буквами.

Создание PDF с возможностью поиска для долгосрочного архивирования

Организации, оцифровывающие бумажные архивы, часто ставят своей основной целью возможность поиска — возможность найти конкретный документ или статью в тысячах файлов спустя годы. В этом случае результаты оптического распознавания символов должны быть сохранены в формате, предназначенном для долгосрочного хранения. PDF/A-3 поддерживает встроенные текстовые слои рядом с изображением страницы и представляет собой стандарт архивирования, специально разработанный для архивов документов с возможностью поиска. Запуск OCR и последующее преобразование в PDF Сжатие с настройками архивирования обеспечивает возможность поиска и долгосрочную стабильность формата.

Даже несовершенное распознавание текста значительно лучше, чем отсутствие распознавания, для целей архивирования. Документ с точностью символов 95% по-прежнему доступен для поиска — поиск по запросу «счет-фактура»; найдет большинство счетов, даже если несколько символов в некоторых словах были прочитаны неправильно. Идеальное распознавание текста идеально; Функциональное распознавание текста по-прежнему гораздо полезнее, чем сканирование без текстового слоя вообще.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →