Google Диск включает встроенную функцию оптического распознавания символов, которая запускается автоматически при открытии отсканированного PDF с помощью Google Docs. Он бесплатен, не требует дополнительного программного обеспечения и достаточно хорошо работает для большинства распространенных документов. Существуют ограничения, о которых стоит знать, но для простого отсканированного текста он надежно справляется с задачей.

Как это сделать
Загрузите отсканированный PDF на Google Диск. После загрузки щелкните файл правой кнопкой мыши и выберите «Открыть с помощью» → «Документы Google». Диск автоматически запускает распознавание текста во время преобразования и открывает результат как редактируемый документ Google Docs. Исходный PDF остается на Диске без изменений — Google создает рядом с ним новый файл Docs.
Преобразованный документ содержит распознанный текст в верхней части, за которым следует изображение каждой исходной страницы ниже. Этот двухуровневый подход позволяет вам увидеть, что распознал Google, и то, что на самом деле написано на исходной странице, что полезно для обнаружения ошибок оптического распознавания путем сравнения двух изображений.
Попробуйте PDF OCR
Никакой установки не требуется. Работает прямо в вашем браузере.
Что он делает хорошо
Для чистых, высококонтрастных сканирований стандартного печатного текста на распространенных языках оптическое распознавание символов Google Drive является точным. Профессионально распечатанный документ, отсканированный с разрешением 200 точек на дюйм или выше, обычно преобразуется с очень небольшим количеством ошибок. Он поддерживает несколько языков и часто может распознавать документы на разных языках без какой-либо специальной настройки.
Вывод можно сразу редактировать в Google Docs, что удобно, если вам нужно внести изменения в текст. Из Документов вы также можете экспортировать обратно в PDF («Файл» → «Загрузить» → «Документ PDF») или в формат Word, если это необходимо.
Там, где этого не хватает
OCR Google Диска не сохраняет исходный макет документа. Таблицы отображаются в виде обычного текста, форматирование нескольких столбцов линеаризуется, а любое сложное форматирование теряется. Распознанный текст представляет собой простые абзацы и визуально не имеет ничего общего с исходным документом.
Для документов, макет которых необходимо сохранить (форма, которую вы будете распространять, отчет, который должен сохранить свой первоначальный дизайн), Google Drive OCR предоставляет вам текстовое содержимое, но вам придется повторно применить форматирование вручную. Для документов, в которых вам просто нужен текстовый контент для поиска, редактирования или извлечения данных, отсутствие форматирования не имеет значения.
Сканирование низкого качества, блеклый текст, рукописный ввод и необычные шрифты дают заметно больше ошибок. Символы CJK (китайский, японский, корейский) в целом улучшились в механизме оптического распознавания символов Google, но все еще отстают от точности латинского алфавита для сложного текста.
Когда лучше использовать специальный инструмент оптического распознавания текста
Если вам нужен результат OCR, который остается в формате PDF — PDF с возможностью поиска, а не в формате Google Doc — Google Диск — неподходящий инструмент. Он преобразуется в файл Docs, а не обратно в PDF с текстовым слоем. Для этого инструмент OCR PDF WukongPDF обрабатывает сканирование и возвращает PDF, в котором текст можно выбрать и выполнить поиск, сохраняя при этом внешний вид исходного документа. Обычно именно это имеют в виду люди, когда говорят, что хотят "OCR PDF" — они хотят вернуть тот же документ, только с узнаваемым текстом, а не изображением.
Для массового распознавания большого количества документов или для документов, в которых точность сложного содержания имеет значение, специальное программное обеспечение для оптического распознавания символов, такое как ABBYY FineReader, дает лучшие результаты, чем Google Drive, за счет того, что оно является платным продуктом. Google Диск справляется с ежедневным бесплатным распознаванием отсканированных документов достаточно хорошо, и большинству людей больше ничего не нужно.
Попробуйте PDF OCR
Никакой установки не требуется. Работает прямо в вашем браузере.
