Others

Является ли PDF тем же, что и отсканированный документ?

Люди часто используют "PDF" и "отсканированный документ"; взаимозаменяемы — особенно в офисе, где кто-то говорит: «Просто отсканируйте и отправьте PDF». Но PDF и отсканированный документ — это не одно и то же, и их объединение приводит к настоящей путанице. Скан можно сохранить в формате PDF, но не все PDF являются сканами, и эта разница имеет существенные практические последствия.

Is a PDF the Same as a Scanned Document?

Что такое PDF на самом деле

PDF означает портативный формат документа. Это формат файла — контейнер, который может содержать множество различных типов контента: реальный текст, векторную графику, изображения, гиперссылки, поля форм, закладки и многое другое. Формат PDF был разработан для единообразного представления документов на любом устройстве или в операционной системе.

PDF, созданный из документа Word, содержит реальный текст — символы, которые компьютер может читать, искать, копировать и обрабатывать. PDF, созданный на основе электронной таблицы Excel, содержит реальные данные. PDF, созданный браузером, содержит реальное содержимое веб-страницы. В каждом случае PDF представляет собой структурированный документ с подлинным содержанием, а не фотографией.

WukongPDF

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Что такое отсканированный документ

Отсканированный документ представляет собой фотографию физической страницы. Сканер улавливает свет, отраженный от бумаги, и преобразует его в сетку пикселей — растровое изображение. Полученный файл представляет собой изображение документа, а не сам документ. Любой текст, видимый при сканировании, существует только в виде цветных пикселей, расположенных в виде букв.

Когда это сканирование сохраняется в формате PDF, вы получаете файл PDF, но содержимое которого представляет собой изображение, а не текст. Контейнер PDF настоящий, но внутри — фотография. Это называется PDF только с изображением или Отсканированный PDF, и его поведение сильно отличается от PDF с реальным текстовым содержимым.

Почему существует путаница

Путаница возникает из-за того, что отсканированные документы обычно сохраняются в формате PDF. Сканеры и приложения для сканирования обычно по умолчанию выводят файлы .pdf. Поэтому, когда кто-то получает "PDF," они могли получить либо цифровой PDF с реальным текстом, либо отсканированный PDF с изображением — и оба они выглядят одинаково на экране.

Различие становится очевидным только тогда, когда вы пытаетесь что-то сделать с файлом. Попробуйте найти слово. Попробуйте скопировать предложение. Попробуйте использовать программу чтения с экрана. Цифровой PDF обрабатывает все это. Отсканированный PDF не обрабатывает ни один из них, если только для добавления текстового слоя не было применено распознавание текста.

Практические различия, которые имеют значение

  • Возможность поиска: цифровые PDF файлы полностью доступны для поиска. Сканированные файлы PDF не возвращают результатов, если не было применено распознавание текста.
  • Размер файла: цифровые PDF файлы компактны: 10-страничный текстовый документ обычно имеет размер менее 500 КБ. Отсканированные файлы PDF содержат изображения страниц и обычно в 10–100 раз больше.
  • Скопируйте и вставьте: вы можете выделить и скопировать текст из цифрового PDF. Вы не можете использовать отсканированный PDF — при попытке выделить текст выделяется все изображение страницы.
  • Редактирование: текст в цифровых PDF можно редактировать непосредственно в редакторе PDF. Отсканированные PDF-файлы могут иметь только новое содержимое поверх — существующее содержимое изображения изменить нельзя.
  • Доступность: программы чтения с экрана работают с цифровыми PDF-файлами. Отсканированные PDF-файлы совершенно недоступны для вспомогательных технологий без текстового слоя OCR.

Как определить, какой у вас тип

Откройте PDF и попробуйте нажать на слово. В цифровом PDF курсор становится текстовым, и вы можете выбирать отдельные слова. В отсканированном PDF ничего не происходит или вся страница выделяется одним блоком.

Нажмите Ctrl+F и найдите слово, которое видите на странице. Если он найден, PDF содержит настоящий текст. Если поиск ничего не возвращает, это только изображения. Третий показатель — качество масштабирования: увеличение цифрового PDF сохраняет четкость текста при любом увеличении, а увеличение сканированного PDF обнаруживает пикселизацию при увеличении изображения.

Как сделать, чтобы отсканированный PDF вел себя как цифровой

OCR — оптическое распознавание символов — считывает изображения в отсканированном PDF, распознает текстовые символы и добавляет в файл реальный текстовый слой. После OCR документ становится доступным для поиска, копирования и доступа. Инструмент оптического распознавания символов WukongPDF на сайте www.wukongpdf.com делает это без настольного программного обеспечения — загрузите отсканированный PDF, запустите OCR, загрузите версию, в которой теперь есть настоящий текст. Он не превратит Отсканированный PDF в собственный цифровой документ, но закроет большую часть практического пробела.

WukongPDF

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →