Сканированный PDF и цифровой PDF: ключевые различия

Два PDF могут выглядеть одинаково на экране, но вести себя совершенно по-разному. Один открывается, и вы можете щелкнуть по тексту, выполнить поиск слова, скопировать абзац. Другой выглядит так же, но нажатие ничего не дает — курсор не попадает на текст, Ctrl+F ничего не находит. Разница заключается в том, был ли PDF создан в цифровом виде или путем сканирования физического документа. Понимание этого различия объясняет многие неприятные ситуации, с которыми люди сталкиваются при работе с PDF.

Scanned PDF vs Digital PDF: Key Differences

Как создается каждый тип

Цифровой PDF создается непосредственно из программного обеспечения — экспортируется из Word, генерируется бухгалтерским программным обеспечением, создается с помощью функции печати веб-браузера или создается любым приложением, которое может выводить PDF. Текст в файле представляет собой реальные символьные данные. Компьютер знает каждое слово, каждую букву, каждый пробел.

Сканированный PDF создается путем фотографирования или сканирования физического документа. Сканер захватывает изображение страницы — сетку пикселей, которая выглядит как текст, но не содержит текстовых данных. Файл представляет собой фотографию, завернутую в контейнер PDF. Компьютер видит изображение, а не слова.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Как определить, какой у вас тип

Самый быстрый тест: попробуйте выделить слово, щелкнув и перетащив его. В цифровом PDF курсор меняется на текстовый курсор и выделяются отдельные слова. В отсканированном PDF ничего не выделяется — или вся страница выделяется как один блок изображения.

Второй тест: нажмите Ctrl+F и найдите слово, которое видите на странице. В цифровом PDF он находится сразу. В отсканированном PDF поиск ничего не возвращает. Третий показатель — размер файла: отсканированный PDF обычно намного больше цифрового PDF с тем же содержимым, поскольку в нем хранятся данные изображения вместо эффективного кодирования текста.

Ключевые различия на практике

Возможность поиска: цифровые PDF файлы полностью доступны для поиска по содержанию. Отсканированные файлы PDF невидимы для поиска — их можно найти только по имени файла, если не было применено распознавание текста.
Копирование и вставка: цифровые PDF файлы позволяют выбирать и копировать текст. Отсканированные PDF-файлы этого не делают — вам придется заново вводить любой контент, который вы хотите извлечь.
Размер файла: 10-страничный цифровой текстовый документ обычно имеет размер 100–300 КБ. Те же страницы, что и при цветном сканировании с разрешением 300 DPI, занимают 20–40 МБ — примерно в 100 раз больше.
Доступность: программы чтения с экрана работают с цифровыми PDF-файлами. Отсканированные файлы PDF совершенно недоступны без оптического распознавания символов — в них нет текста, который могла бы прочитать программа чтения с экрана.
Качество печати: цифровые PDF-файлы печатаются в любом размере без потери качества, поскольку текстовые и векторные элементы масштабируются бесконечно. Отсканированные PDF-файлы печатаются с фиксированным разрешением — достаточно увеличить масштаб, и пиксели станут видимыми.
Редактирование: цифровые PDF можно редактировать с помощью PDF Editor — щелкнув текст и изменив его напрямую. Отсканированные файлы PDF можно редактировать только путем размещения нового содержимого поверх изображения, а не путем изменения существующего содержимого.

Преодоление разрыва: что делает OCR

OCR (оптическое распознавание символов) устраняет большую часть разрыва между отсканированными и цифровыми PDF. Запуск , отсканированного PDF с помощью инструмента оптического распознавания символов, добавляет к файлу реальный текстовый слой — изображение остается видимым, но под ним программное обеспечение распознает и встроит настоящие символы. После OCR документ становится доступным для поиска, копирования и доступа для программ чтения с экрана.

OCR не идеален — точность зависит от качества сканирования, четкости шрифта и языка. Но для чистого сканирования печатных документов со стандартными шрифтами современное оптическое распознавание текста очень точное и преобразует разочаровывающий PDF, состоящий только из изображений, в документ, который ведет себя как настоящий цифровой документ. Инструмент оптического распознавания символов WukongPDF на сайте www.wukongpdf.com справляется с этой задачей без необходимости использования настольного программного обеспечения.

Какой тип использовать для разных целей

Для документов, которые вы создаете самостоятельно: всегда создавайте цифровые PDF-файлы путем экспорта из исходного приложения. Никогда не сканируйте распечатку того, что вы создали в цифровом виде — это приведет к ненужному ухудшению качества.
Для физических документов, которые должны быть в цифровом виде: сканирование — единственный вариант, но сразу после этого запустите распознавание текста, чтобы результат был таким же полезным, как цифровой PDF.
Для архивирования важных документов: если у вас есть исходный цифровой источник, заархивируйте цифровой PDF. Если у вас есть только физический документ, отсканируйте его, примените OCR, сожмите и сохраните версию, обработанную OCR.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →