OCR означает оптическое распознавание символов. Это технология, которая считывает текст с изображений, включая отсканированные документы, фотографии страниц и файлы PDF, содержащие только изображения, и преобразует то, что видит, в реальные текстовые данные, которые могут обрабатываться компьютерами. Если вы когда-нибудь сканировали документ и задавались вопросом, почему вы не можете выполнить поиск или скопировать текст, OCR — это решение.

Проблемы, которые решает распознавание текста
Когда вы сканируете документ, сканер делает фотографию страницы. Для компьютера эта фотография — это просто пиксели — цветные точки, расположенные на сетке. Слова, которые вы видите на изображении, не существуют в виде текста с точки зрения компьютера. Он не может их искать, копировать, переводить или читать вслух.
OCR устраняет этот пробел. Он анализирует структуру пикселей изображения, определяет формы, соответствующие буквам и цифрам, и преобразует эти формы в настоящие текстовые символы. После обработки OCR PDF документ имеет два слоя: исходное изображение (которое по-прежнему выглядит точно так же) и скрытый текстовый слой, который компьютер может читать, искать и обрабатывать.
Попробуйте PDF OCR
Никакой установки не требуется. Работает прямо в вашем браузере.
Как на самом деле работает распознавание текста
Современные системы оптического распознавания символов используют модели машинного обучения, обученные на миллионах изображений документов. При обработке страницы система проходит несколько этапов:
- Предварительная обработка изображения: изображение очищается — если оно перекошено, выпрямляется, увеличивается контрастность, уменьшается шум. Чистое изображение обеспечивает более точное распознавание.
- Анализ макета: система определяет структуру страницы — где текстовые блоки, где изображения, порядок чтения, границы столбцов, ячейки таблицы.
- Распознавание символов: модель анализирует форму каждого символа и назначает наиболее вероятную букву, цифру или символ. Он учитывает контекст — «он»; скорее всего, будет "the" — для повышения точности.
- Создание текстового слоя: распознанные символы собираются в слова и предложения, располагаются так, чтобы совпадать с исходным изображением, и встраиваются в PDF как текстовый слой с возможностью поиска.
Что влияет на точность распознавания
Точность оптического распознавания символов значительно варьируется в зависимости от качества исходного изображения и распознаваемого контента:
- Разрешение сканирования: более высокое разрешение обеспечивает более четкие края символов и лучшее распознавание. 300 DPI — рекомендуемый минимум для надежного оптического распознавания символов. Изображения с разрешением ниже 150 DPI часто дают существенные ошибки.
- Тип шрифта: стандартные печатные шрифты распространенных шрифтов (Times, Arial, Helvetica) распознаются с высокой точностью. Декоративные шрифты, необычные шрифты и очень мелкий текст вызывают больше ошибок.
- Состояние документа: пожелтевшая бумага, выцветшие чернила, пятна, перекошенное сканирование и тени ухудшают качество распознавания. Чистое, прямое и высококонтрастное сканирование дает наилучшие результаты.
- Язык: распространенные языки (английский, испанский, французский, немецкий, китайский, японский) имеют обширные данные для обучения и высокую точность. Менее распространенные языки и сценарии могут содержать больше ошибок.
- Почерк: OCR в печатном тексте отличается высокой точностью. Распознавание рукописного текста — другая, более сложная проблема: точность сильно зависит от стиля рукописного ввода и конкретной используемой модели.
Как выглядит результат
После оптического распознавания PDF выглядит так же, как и раньше — исходное сканированное изображение не изменяется. Разница незаметна глазу, но существенна по функциям. В документе теперь есть скрытый текстовый слой, выровненный по изображению. Когда вы ищете слово, зритель находит его в текстовом слое и выделяет на изображении. Когда вы выбираете и копируете текст, вы копируете его из текстового слоя. Когда программа чтения с экрана объявляет контент, она считывает текстовый слой.
Слой изображения и текстовый слой разделены — OCR никак не меняет исходное сканирование. Если OCR допустил ошибки, на изображении по-прежнему отображается правильный исходный текст; только скрытый текстовый слой содержит ошибку.
Как применить распознавание текста к PDF
Инструмент OCR PDF от WukongPDF на сайте www.wukongpdf.com справляется с этой задачей без необходимости использования настольного программного обеспечения — загрузите отсканированный PDF, выберите язык документа для большей точности, обработайте и загрузите результат поиска. Для стандартного документа операция обычно занимает 10-30 секунд.
Adobe Acrobat Pro имеет встроенную функцию оптического распознавания символов (Инструменты > Улучшение сканирования > Распознавать текст) с дополнительными опциями для контроля качества распознавания и работы с многостраничными документами. Для организаций, обрабатывающих большие объемы отсканированных документов, функция пакетного оптического распознавания символов Acrobat автоматически обрабатывает целые папки с файлами.
Попробуйте PDF OCR
Никакой установки не требуется. Работает прямо в вашем браузере.
