Проблема с PDF на основе снимков экрана

Сделать снимок экрана и сохранить его в формате PDF — это быстрый способ что-то запечатлеть. Для одного изображения это работает нормально. В качестве рабочего процесса создания документов — снимков экрана электронных таблиц, снимков экрана веб-страниц, снимков экрана других PDF — он создает файлы с серьезными практическими ограничениями, которые не очевидны, пока вы не попытаетесь сделать с ними что-нибудь полезное. Вот что пошло не так и что делать вместо этого.

Что на самом деле содержит PDF на основе скриншотов

PDF, созданный из снимков экрана, представляет собой контейнер, содержащий одно или несколько изображений. Нет ни текстового слоя, ни структуры документа, ни метаданных о том, что означает контент. Слова, видимые на скриншоте, существуют только в виде пикселей — цветных точек, расположенных в виде букв. В документе не больше смыслового содержания, чем в фотографии страницы.

Это различие — реальный текст и пиксели, похожие на текст — является основной причиной всех последующих проблем. Проблема PDF с качеством на снимке экрана PDF не является ошибкой формата PDF; это фундаментальное ограничение использования формата изображения там, где необходим формат документа.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Вы не можете выполнить поиск

Нажмите Ctrl+F на скриншоте PDF и поиск ничего не находит. Текст, видимый на странице, не существует в качестве содержимого, доступного для поиска. Если вы создаете PDF исследовательской статьи, таблицы данных или любого документа, на который вам понадобится ссылаться позже, невозможность поиска в нем является существенным практическим ограничением.

Файл также не будет отображаться при поиске операционной системы по содержимому — только по имени файла. Папка со скриншотами PDFs доступна для навигации только в соответствии с вашим соглашением об именах, без возможности поиска слов, которые, как вы помните, были в документе.

Качество ухудшается и не подлежит восстановлению

Скриншот фиксирует контент с разрешением экрана — обычно от 72 до 96 точек на дюйм на стандартном мониторе. PDF документы, предназначенные для чтения или печати, должны иметь разрешение не менее 150 DPI; все, что будет напечатано в высоком качестве, требует разрешения 300 DPI. Скриншот PDF ниже минимального порога надежного качества печати, и проблема усугубляется, если PDF затем сжимается.

Текст, который выглядит приемлемо на экране при 100% увеличении, часто выглядит заметно пикселизированным при печати или увеличении. Числа в таблицах, которые особенно важно читать точно, могут стать неоднозначными при низком разрешении. "6"; и "8"; которые различимы в исходном разрешении, могут выглядеть одинаково на сжатом снимке экрана PDF.

Вы не можете скопировать текст

Выделение и копирование рисунка, цитаты, предложения или любого другого содержимого со скриншота PDF невозможно без распознавания текста. Текстовый курсор либо не появится, либо выделит все изображение как блок. Любой, кто получает документ и ему необходимо извлечь из него какой-либо контент — вставить цитату в отчет, скопировать цифру в электронную таблицу, — сталкивается с ручным перепечатыванием.

Для документов, которые вы создаете для работы с другими — таблиц данных, справочных документов, обзоров исследований — это ограничение значительно снижает полезность документа. PDF с реальным текстом предназначен для совместной работы; скриншот PDF доступен только для чтения в самом буквальном смысле.

Не соответствует требованиям доступности

Программы чтения с экрана — программное обеспечение, используемое людьми с нарушениями зрения, — работают путем чтения текстового содержимого документа. Скриншот PDF не имеет текстового содержимого. Программа чтения с экрана объявляет, что документ открыт, и читать его больше нечего. В профессиональном или государственном секторе, где документы должны соответствовать стандартам доступности, снимок экрана PDF не соответствует всем применимым требованиям. Это немаловажная проблема: во многих юрисдикциях распространение недоступных документов, когда доступны доступные альтернативы, является проблемой соблюдения требований.

Что делать вместо того, чтобы делать скриншоты

Правильный подход зависит от того, что вы пытаетесь захватить:

Захват веб-страницы: используйте встроенную в браузер функцию печати > Сохраните как функцию PDF или сначала используйте режим чтения для более четкого вывода. Результат содержит реальный текст, а не пиксели.
Захват электронной таблицы: экспортируйте непосредственно из Excel или Google Sheets, используя файл > Скачать > PDF. В результате получается правильно отформатированный PDF с реальным текстом в правильном разрешении.
Захват еще одного PDF: извлеките нужные страницы с помощью инструмента разделения, а не делайте их снимки экрана. Извлеченные страницы сохраняют исходное разрешение и текстовый слой.
В вашем архиве уже есть скриншоты PDF: пропустите их с помощью инструмента OCR PDF от WukongPDF на сайте www.wukongpdf.com, чтобы добавить текстовый слой с возможностью поиска. Он не восстановит разрешение качества печати, но сделает контент доступным для поиска и копирования.

Скриншоты имеют свое место, но не как документы

Снимки экрана полезны для фиксации визуального состояния — как выглядел экран в определенный момент времени, ошибки пользовательского интерфейса, ссылки на дизайн. Это неправильный инструмент для создания записей документов, справочных материалов или чего-либо еще, что необходимо искать, копировать, качественно распечатывать или получать доступ к людям, использующим вспомогательные технологии. Для чего-либо из этих категорий используйте функцию экспорта исходного приложения, а не ярлык снимка экрана.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →