Почему я не могу скопировать текст из моего PDF?

Существует три совершенно разные причины, по которым текст не копируется из PDF, и для каждой из них есть свое решение. Подход, который решает одну проблему, не поможет в решении других, поэтому диагностирование ситуации, в которой вы находитесь, избавит вас от многих разочарований.

Причина 1: PDF — это отсканированное изображение

Это наиболее распространенная причина. Когда вы сканируете физический документ, сканер фотографирует страницу и сохраняет эту фотографию в контейнере PDF. Текст, который вы видите на экране, является частью изображения — пикселей, расположенных в виде букв, — а не реальных текстовых символов, которые можно выбрать или скопировать. Нажатие на него похоже на попытку скопировать текст с фотографии.

Быстрый тест: попробуйте щелкнуть и перетащить, чтобы выделить одно слово. Если вы можете выделить отдельные слова или буквы, значит, в файле есть настоящий текст. Если ваш курсор ведет себя так, как будто вы выбираете прямоугольник изображения, и вы можете захватить только блок содержимого страницы, это отсканированное изображение.

Исправление — OCR — оптическое распознавание символов. Программное обеспечение OCR анализирует изображение, идентифицирует текст и добавляет в PDF настоящий текстовый слой, который можно искать, выбирать и копировать. После запуска OCR документ выглядит идентично, но ведет себя как обычный PDF. Инструмент OCR PDF от WukongPDF делает это в браузере: загружает отсканированный PDF, обрабатывает его и загружает версию с возможностью поиска.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Причина 2: копирование ограничено владельцем документа

PDF имеет систему разрешений, которая позволяет создателям ограничивать действия читателей с документом. Одним из таких ограничений является копирование: владелец может разрешить чтение, но заблокировать выделение и копирование текста. Если это ограничение установлено, вы можете видеть и читать текст на экране, но при попытке его выделения ничего не выделяется или при вставке ничего не проходит.

Вы можете проверить, так ли это: в большинстве программ просмотра PDF перейдите в «Файл» → «Свойства» или «Свойства документа», затем посмотрите вкладку «Безопасность» или «Разрешения». Там будет список того, что разрешено и запрещено. Если "Копирование контента" отображается как «Не разрешено», ограничение копирования активно.

Сможете ли вы снять это ограничение, зависит от того, есть ли у вас пароль. Если это ваш собственный документ и вы помните пароль, любой редактор PDF позволит вам открыть его с паролем и снять ограничения. Если это документ, который вам прислал кто-то другой, и он намеренно ограничил копирование, вам нужно будет попросить его прислать неограниченную версию.

Причина 3: текст копируется, но выходит искаженным

Иногда копирование технически работает, но то, что вы вставляете, — это мусор — случайные символы, символы или текст в неправильном порядке. Это проблема с кодировкой шрифта. В некоторых PDF используются собственные или встроенные шрифты с нестандартным сопоставлением символов. Средство просмотра PDF может визуализировать текст с помощью шрифта, но когда вы пытаетесь скопировать базовые коды символов, они не соответствуют буквам, которые вы видите.

Чаще всего это происходит со старыми PDF, документами, созданными с помощью определенного программного обеспечения для проектирования, или файлами, в которых использовалась необычная кодировка шрифтов. Единственное надежное решение — запустить распознавание текста в документе, которое перечитывает визуальный контент и создает новый, правильный текстовый слой. При этом нарушенная кодировка заменяется чистым, копируемым текстом.

Когда текст копируется, но возникают проблемы с форматированием

Немного другая проблема: текст копируется правильно, но появляется с неправильными разрывами строк, объединенными словами или пропущенными пробелами. Это нормальное поведение при извлечении текста PDF. В PDF текст хранится в виде символов, расположенных на странице, а не в виде плавных абзацев, как в документе Word. Когда вы копируете столбец текста или макет из нескольких столбцов, экстрактор не всегда знает, где заканчивается одна строка и начинается другая.

Для небольших объемов текста ручная очистка обычно является самым быстрым решением. Для больших объемов — например, для извлечения содержимого всего отчета — преобразование PDF в Word с помощью инструмента PDF Converter дает более чистый результат, чем копирование, поскольку процесс преобразования пытается сохранить структуру документа, а не извлекать необработанные позиции символов.

Как выбрать правильное решение

Сопоставьте исправление с диагнозом:

Невозможно выделить текст, курсор ведет себя как изображение → Запустить OCR
Текст можно выбрать на экране, но он не вставляется → Проверьте разрешения документа, если есть ограничения, свяжитесь с отправителем
Вставляется как искаженные символы → Запустите OCR, чтобы восстановить текстовый слой.
Копирует правильно, но имеет плохое форматирование → Конвертировать в Word для больших фрагментов, очищать вручную для небольших

Путь OCR решает три из четырех случаев, поэтому обычно его следует попробовать в первую очередь, если вы не уверены в том, что происходит. Отсканированный PDF, прошедший OCR, ведет себя как любой обычный текстовый документ — полностью доступен для поиска, выбора и копирования.

Попробуйте PDF OCR

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →