Что такое OCR и как оно работает с PDF?

OCR означает оптическое распознавание символов. Это технология, которая считывает текст с изображений, включая отсканированные документы, фотографии страниц и файлы PDF, содержащие только изображения, и преобразует то, что видит, в реальные текстовые данные, которые могут обрабатываться компьютерами. Если вы когда-нибудь сканировали документ и задавались вопросом, почему вы не можете выполнить поиск или скопировать текст, OCR — это решение.

What Is OCR and How Does It Work With PDFs?

Проблемы, которые решает распознавание текста

Когда вы сканируете документ, сканер делает фотографию страницы. Для компьютера эта фотография — это просто пиксели — цветные точки, расположенные на сетке. Слова, которые вы видите на изображении, не существуют в виде текста с точки зрения компьютера. Он не может их искать, копировать, переводить или читать вслух.

OCR устраняет этот пробел. Он анализирует структуру пикселей изображения, определяет формы, соответствующие буквам и цифрам, и преобразует эти формы в настоящие текстовые символы. После обработки OCR PDF документ имеет два слоя: исходное изображение (которое по-прежнему выглядит точно так же) и скрытый текстовый слой, который компьютер может читать, искать и обрабатывать.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Как на самом деле работает распознавание текста

Современные системы оптического распознавания символов используют модели машинного обучения, обученные на миллионах изображений документов. При обработке страницы система проходит несколько этапов:

Предварительная обработка изображения: изображение очищается — если оно перекошено, выпрямляется, увеличивается контрастность, уменьшается шум. Чистое изображение обеспечивает более точное распознавание.
Анализ макета: система определяет структуру страницы — где текстовые блоки, где изображения, порядок чтения, границы столбцов, ячейки таблицы.
Распознавание символов: модель анализирует форму каждого символа и назначает наиболее вероятную букву, цифру или символ. Он учитывает контекст — «он»; скорее всего, будет "the" — для повышения точности.
Создание текстового слоя: распознанные символы собираются в слова и предложения, располагаются так, чтобы совпадать с исходным изображением, и встраиваются в PDF как текстовый слой с возможностью поиска.

Что влияет на точность распознавания

Точность оптического распознавания символов значительно варьируется в зависимости от качества исходного изображения и распознаваемого контента:

Разрешение сканирования: более высокое разрешение обеспечивает более четкие края символов и лучшее распознавание. 300 DPI — рекомендуемый минимум для надежного оптического распознавания символов. Изображения с разрешением ниже 150 DPI часто дают существенные ошибки.
Тип шрифта: стандартные печатные шрифты распространенных шрифтов (Times, Arial, Helvetica) распознаются с высокой точностью. Декоративные шрифты, необычные шрифты и очень мелкий текст вызывают больше ошибок.
Состояние документа: пожелтевшая бумага, выцветшие чернила, пятна, перекошенное сканирование и тени ухудшают качество распознавания. Чистое, прямое и высококонтрастное сканирование дает наилучшие результаты.
Язык: распространенные языки (английский, испанский, французский, немецкий, китайский, японский) имеют обширные данные для обучения и высокую точность. Менее распространенные языки и сценарии могут содержать больше ошибок.
Почерк: OCR в печатном тексте отличается высокой точностью. Распознавание рукописного текста — другая, более сложная проблема: точность сильно зависит от стиля рукописного ввода и конкретной используемой модели.

Как выглядит результат

После оптического распознавания PDF выглядит так же, как и раньше — исходное сканированное изображение не изменяется. Разница незаметна глазу, но существенна по функциям. В документе теперь есть скрытый текстовый слой, выровненный по изображению. Когда вы ищете слово, зритель находит его в текстовом слое и выделяет на изображении. Когда вы выбираете и копируете текст, вы копируете его из текстового слоя. Когда программа чтения с экрана объявляет контент, она считывает текстовый слой.

Слой изображения и текстовый слой разделены — OCR никак не меняет исходное сканирование. Если OCR допустил ошибки, на изображении по-прежнему отображается правильный исходный текст; только скрытый текстовый слой содержит ошибку.

Как применить распознавание текста к PDF

Инструмент OCR PDF от WukongPDF на сайте www.wukongpdf.com справляется с этой задачей без необходимости использования настольного программного обеспечения — загрузите отсканированный PDF, выберите язык документа для большей точности, обработайте и загрузите результат поиска. Для стандартного документа операция обычно занимает 10-30 секунд.

Adobe Acrobat Pro имеет встроенную функцию оптического распознавания символов (Инструменты > Улучшение сканирования > Распознавать текст) с дополнительными опциями для контроля качества распознавания и работы с многостраничными документами. Для организаций, обрабатывающих большие объемы отсканированных документов, функция пакетного оптического распознавания символов Acrobat автоматически обрабатывает целые папки с файлами.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →