Является ли PDF тем же, что и отсканированный документ?

Люди часто используют "PDF" и "отсканированный документ"; взаимозаменяемы — особенно в офисе, где кто-то говорит: «Просто отсканируйте и отправьте PDF». Но PDF и отсканированный документ — это не одно и то же, и их объединение приводит к настоящей путанице. Скан можно сохранить в формате PDF, но не все PDF являются сканами, и эта разница имеет существенные практические последствия.

Is a PDF the Same as a Scanned Document?

Что такое PDF на самом деле

PDF означает портативный формат документа. Это формат файла — контейнер, который может содержать множество различных типов контента: реальный текст, векторную графику, изображения, гиперссылки, поля форм, закладки и многое другое. Формат PDF был разработан для единообразного представления документов на любом устройстве или в операционной системе.

PDF, созданный из документа Word, содержит реальный текст — символы, которые компьютер может читать, искать, копировать и обрабатывать. PDF, созданный на основе электронной таблицы Excel, содержит реальные данные. PDF, созданный браузером, содержит реальное содержимое веб-страницы. В каждом случае PDF представляет собой структурированный документ с подлинным содержанием, а не фотографией.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Что такое отсканированный документ

Отсканированный документ представляет собой фотографию физической страницы. Сканер улавливает свет, отраженный от бумаги, и преобразует его в сетку пикселей — растровое изображение. Полученный файл представляет собой изображение документа, а не сам документ. Любой текст, видимый при сканировании, существует только в виде цветных пикселей, расположенных в виде букв.

Когда это сканирование сохраняется в формате PDF, вы получаете файл PDF, но содержимое которого представляет собой изображение, а не текст. Контейнер PDF настоящий, но внутри — фотография. Это называется PDF только с изображением или Отсканированный PDF, и его поведение сильно отличается от PDF с реальным текстовым содержимым.

Почему существует путаница

Путаница возникает из-за того, что отсканированные документы обычно сохраняются в формате PDF. Сканеры и приложения для сканирования обычно по умолчанию выводят файлы .pdf. Поэтому, когда кто-то получает "PDF," они могли получить либо цифровой PDF с реальным текстом, либо отсканированный PDF с изображением — и оба они выглядят одинаково на экране.

Различие становится очевидным только тогда, когда вы пытаетесь что-то сделать с файлом. Попробуйте найти слово. Попробуйте скопировать предложение. Попробуйте использовать программу чтения с экрана. Цифровой PDF обрабатывает все это. Отсканированный PDF не обрабатывает ни один из них, если только для добавления текстового слоя не было применено распознавание текста.

Практические различия, которые имеют значение

Возможность поиска: цифровые PDF файлы полностью доступны для поиска. Сканированные файлы PDF не возвращают результатов, если не было применено распознавание текста.
Размер файла: цифровые PDF файлы компактны: 10-страничный текстовый документ обычно имеет размер менее 500 КБ. Отсканированные файлы PDF содержат изображения страниц и обычно в 10–100 раз больше.
Скопируйте и вставьте: вы можете выделить и скопировать текст из цифрового PDF. Вы не можете использовать отсканированный PDF — при попытке выделить текст выделяется все изображение страницы.
Редактирование: текст в цифровых PDF можно редактировать непосредственно в редакторе PDF. Отсканированные PDF-файлы могут иметь только новое содержимое поверх — существующее содержимое изображения изменить нельзя.
Доступность: программы чтения с экрана работают с цифровыми PDF-файлами. Отсканированные PDF-файлы совершенно недоступны для вспомогательных технологий без текстового слоя OCR.

Как определить, какой у вас тип

Откройте PDF и попробуйте нажать на слово. В цифровом PDF курсор становится текстовым, и вы можете выбирать отдельные слова. В отсканированном PDF ничего не происходит или вся страница выделяется одним блоком.

Нажмите Ctrl+F и найдите слово, которое видите на странице. Если он найден, PDF содержит настоящий текст. Если поиск ничего не возвращает, это только изображения. Третий показатель — качество масштабирования: увеличение цифрового PDF сохраняет четкость текста при любом увеличении, а увеличение сканированного PDF обнаруживает пикселизацию при увеличении изображения.

Как сделать, чтобы отсканированный PDF вел себя как цифровой

OCR — оптическое распознавание символов — считывает изображения в отсканированном PDF, распознает текстовые символы и добавляет в файл реальный текстовый слой. После OCR документ становится доступным для поиска, копирования и доступа. Инструмент оптического распознавания символов WukongPDF на сайте www.wukongpdf.com делает это без настольного программного обеспечения — загрузите отсканированный PDF, запустите OCR, загрузите версию, в которой теперь есть настоящий текст. Он не превратит Отсканированный PDF в собственный цифровой документ, но закроет большую часть практического пробела.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →