Tips & Tricks

Как сделать текст доступным для выбора в отсканированном PDF

Отсканированный PDF содержит текст, который можно прочитать глазами, но нельзя щелкнуть, выбрать, скопировать или выполнить поиск. Это связано с тем, что "текст" на самом деле это фотография — пиксели, расположенные в виде букв. Чтобы сделать текст доступным для выбора, необходимо запустить распознавание текста, которое считывает изображение и добавляет в документ настоящий текстовый слой. После OCR PDF выглядит идентично, но текст становится доступным для копирования, поиска и доступа.

How to Make Text Selectable in a Scanned PDF

Что делает распознавание текста со отсканированным PDF

OCR (оптическое распознавание символов) анализирует шаблоны пикселей на каждом изображении страницы, определяет формы, соответствующие буквам и цифрам, и создает скрытый текстовый слой, расположенный так, чтобы совпадать с видимыми символами. После обработки OCR PDF документ имеет два слоя: исходное сканированное изображение (неизменное, все еще видимое) и текстовый слой под ним, который зрители используют при выборе или поиске.

Визуальный вид документа не меняется — скан до и после оптического распознавания выглядит одинаково. Что меняется, так это функциональность документа: текст становится доступным для выбора посимвольно, работает поиск Ctrl+F, копирование и вставка создает реальный текст, а не ничего, а программы чтения с экрана могут читать содержимое вслух.

WukongPDF

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Использование инструмента оптического распознавания символов WukongPDF

WukongPDF на www.wukongpdf.com обрабатывает распознавание текста в браузере без установки программного обеспечения. Загрузите отсканированный PDF, выберите язык документа для повышения точности распознавания, обработайте и загрузите результат с возможностью поиска. Конвертированный файл представляет собой стандартный PDF с текстовым слоем, совместимый с любым средством просмотра PDF.

После загрузки немедленно протестируйте: откройте PDF, нажмите Ctrl+F и найдите слово, которое вы видите на первой странице. Если он его найдет, OCR сработал. Попробуйте выделить и скопировать предложение — вставленный текст должен соответствовать тому, что вы видите. Если он ничего не находит или скопированный текст выглядит неправильно, значит, у OCR возникли проблемы с точностью, вероятно, из-за качества сканирования.

Улучшенные сканирования Adobe Acrobat

Adobe Acrobat Pro и Acrobat Standard включают специальную функцию оптического распознавания символов под названием Enhance Scans. Откройте отсканированный PDF, перейдите в раздел Инструменты > Улучшение сканирования > Распознать текст > В этом файле. Установите язык документа и нажмите «Распознать текст». Acrobat обрабатывает страницы и добавляет текстовый слой. Для многостраничных документов Acrobat обрабатывает все страницы за одну операцию.

Acrobat также предлагает функцию «Сделать доступной для поиска». вариант, который немного отличается от полного оптического распознавания символов — он добавляет текстовый слой без попытки восстановить структуру документа. В большинстве случаев стандартная опция «Распознать текст» предпочтительнее, поскольку она создает правильно структурированный Отсканированный PDF с точным позиционированием текста.

Что влияет на точность распознавания

Точность оптического распознавания символов напрямую связана с качеством сканирования. Тот же документ, хорошо отсканированный, дает почти идеальные результаты; при плохом сканировании выдает ошибки, требующие ручного исправления.

  • Разрешение: 300 DPI — это минимум для надежного оптического распознавания символов. Ниже 200 точек на дюйм ожидаются частые ошибки, особенно при работе с мелким текстом. Разрешение 600 DPI повышает точность, но создает файлы большого размера.
  • Контраст: чёткий чёрный текст на сканах белой бумаги с почти идеальной точностью. Блеклые чернила, цветная бумага или низкая контрастность приводят к увеличению количества ошибок.
  • Перекос: страниц, сканированных под значительным углом, приводит к большему количеству ошибок. Современные инструменты оптического распознавания символов включают в себя выравнивание для исправления небольшого перекоса, но большие углы снижают точность.
  • Тип шрифта: стандартные печатные шрифты распространенных шрифтов (Times, Arial, Helvetica) распознаются точно. Декоративные, рукописные или очень мелкие шрифты вызывают больше ошибок.

После оптического распознавания текста: просмотрите, прежде чем полагаться на текст

OCR не идеален — даже высококачественные сканы иногда приводят к ошибкам распознавания. Распространенные ошибки включают путаницу 0 с O, 1 с l, rn с m и неправильное прочтение символов возле краев страницы. Для документа, для которого важна точность — контракта, финансового отчета, юридической документации — проверьте результаты OCR по сравнению с оригиналом, прежде чем полагаться на них.

В Acrobat Pro функция Find & Функция замены может помочь систематически находить распространенные ошибки оптического распознавания символов. Найдите "0" и проверьте каждый результат, чтобы увидеть, должен ли какой-либо из них быть «O» или наоборот. Для критически важных документов полная корректировка оригинального сканирования — единственный способ гарантировать точность. Для общего справочного использования — обеспечения возможности поиска в архиве, извлечения текста для анализа — обычно достаточно быстрой выборочной проверки.

WukongPDF

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →