Tips & Tricks

Как восстановить текст из поврежденного PDF

Единственная копия контракта трехлетней давности — это PDF, который теперь открывается с сообщением об ошибке. В отчете об исследовании, загруженном с ныне несуществующего веб-сайта, не будет отображаться ничего, кроме четвертой страницы. Подписанное клиентом соглашение хранилось на диске, на котором возникли ошибки, а восстановленный файл частично поврежден. Эти ситуации стрессовые, но они не всегда безнадежны. Восстановление текста из поврежденных PDF-файлов возможно чаще, чем люди ожидают — вопрос в том, какой подход попробовать в первую очередь.

How to Recover Text From a Damaged PDF

Понимайте, с каким ущербом вы имеете дело

Не все повреждения PDF одинаковы, и подход к восстановлению зависит от того, что пошло не так. Несколько быстрых наблюдений скажут вам о многом:

  • Файл вообще не открывается: поврежден заголовок или внутренняя структура файла. Инструменту восстановления необходимо восстановить структуру файла, прежде чем можно будет получить доступ к какому-либо содержимому.
  • Файл открывается, но некоторые страницы пусты или отсутствуют: частичное повреждение — структура файла не повреждена, но некоторые объекты содержимого повреждены или отсутствуют. Восстановление может восстановить неповрежденные части.
  • Текст отображается в виде символов или искаженных символов: повреждение кодировки шрифта. Текстовые данные могут быть неповрежденными, но сопоставление между символами и глифами нарушено.
  • Файл очень мал (несколько КБ, хотя он должен быть намного больше): неполная загрузка или передача. Файл так и не был получен полностью — получение свежей копии из источника — это исправление, а не восстановление.
WukongPDF

Попробуйте восстановить PDF

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Прежде чем что-либо еще, попробуйте другую программу просмотра PDF

Некоторые файлы, которые не удалось выполнить в одном средстве просмотра, успешно открываются в другом. Adobe Reader, встроенная программа просмотра PDF Chrome, Apple Preview, Foxit и Sumatra PDF используют разные механизмы рендеринга. Файл, который не может проанализировать один механизм, может находиться в пределах допуска восстановления другого.

Если какой-либо просмотрщик откроет файл — даже частично — немедленно попробуйте скопировать весь видимый текст (Ctrl+A, затем Ctrl+C) и вставить его в документ Word. При этом фиксируется любой текст, доступный в текущем состоянии файла, независимо от того, подлежит ли восстановлению структура файла. Несовершенное извлечение текста лучше, чем ничего, и оно может захватывать большую часть содержимого даже из значительно поврежденного файла.

Используйте инструмент восстановления PDF

Специальный инструмент Repair PDF пытается восстановить внутреннюю структуру файла, сканируя поврежденный файл на наличие восстанавливаемых объектов контента — текстовых потоков, изображений, определений страниц — и восстанавливая действительный PDF из всего, что он может найти. Это отличается от простого открытия файла; Инструменты для ремонта специально ищут и устраняют структурные повреждения.

Инструмент восстановления WukongPDF на сайте www.wukongpdf.com справляется с этой задачей — загрузите поврежденный файл, запустите процесс восстановления и загрузите все, что можно восстановить. Для частично поврежденных файлов, в которых большая часть содержимого не повреждена, но структура файла нарушена, часто получается полностью читаемый PDF. Для сильно поврежденных файлов он может восстановить части содержимого. Результат зависит от того, какая часть базовых данных пережила повреждение.

Извлечение текста непосредственно из данных файла

Файлы PDF хранят текст в потоках внутри файловой структуры. Даже если структура PDF слишком повреждена для просмотра документа, текстовые потоки могут оставаться неповрежденными и читаемыми с помощью правильных инструментов. Для технически уверенных пользователей открытие PDF в текстовом редакторе (а не в программе просмотра PDF) может обнаружить читаемое текстовое содержимое, встроенное в необработанные данные файла — ищите строки читаемых символов среди двоичного содержимого.

Инструменты командной строки, такие как pdftotext (часть пакета poppler), могут извлекать текст из PDF, который не открывается в стандартных программах просмотра. Запуск pdftotext для поврежденного файла иногда восстанавливает существенное текстовое содержимое, даже если визуальный рендеринг полностью завершается сбоем. Этот подход требует удобства работы с инструментами командной строки, но позволяет получить доступ к содержимому, которое пропускают инструменты с графическим интерфейсом.

Особый случай: поврежденный отсканированный PDFs

Отсканированные файлы PDF сохраняют содержимое в виде изображений, а не текста. Если данные изображения в отсканированном PDF повреждены, инструменты извлечения текста не помогут — нет текстового слоя, который можно было бы извлечь. Восстанавливаемый контент — это сами данные изображения.

Для частично поврежденных отсканированных файлов PDF инструмент восстановления, который восстанавливает объекты изображения, может создать документ, пригодный для просмотра, даже если структура файла нарушена. После восстановления запуск OCR на восстановленном документе преобразует содержимое изображения в текст, доступный для поиска, что делает восстановленную версию более полезной, чем исходное сканированное изображение, недоступное для поиска.

Что можно и чего нельзя сделать при восстановлении

Восстановление текста из поврежденных PDF-файлов не гарантируется. Вероятность успеха зависит от типа и степени повреждения:

  • Структурное повреждение при сохраненном содержимом: высокая скорость восстановления — содержимое есть, просто файл не может его правильно представить.
  • Частичное повреждение контента: частичное восстановление — некоторые страницы или разделы можно восстановить, другие потеряны.
  • Перезаписанные сектора хранилища: восстановление от низкого уровня до отсутствия — если базовые данные были перезаписаны, ни один инструмент не сможет их воссоздать.
  • Неполная загрузка (файл просто обрезан): получите новую копию, а не пытайтесь восстановить.

Урок на будущее: для любого важного документа храните несколько копий в разных местах. Резервная копия на другом диске, копия в облачном хранилище, электронное письмо самому себе — любой из этих способов обеспечивает путь восстановления, который делает ненужными инструменты восстановления PDF. Лучший сценарий Repair PDF — это тот, который вам никогда не придется использовать.

WukongPDF

Попробуйте восстановить PDF

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →