Others

Можете ли вы конвертировать PDF в HTML?

Преобразование PDF в HTML технически возможно, но результат сильно зависит от того, что содержит PDF, и от того, что вы собираетесь делать с HTML. Для извлечения читаемого текста из простого документа преобразование работает хорошо. Чтобы сохранить сложный макет в виде веб-страницы, выходные данные обычно требуют значительной очистки, прежде чем их можно будет использовать.

Can You Convert PDF to HTML?

Почему преобразование PDF в HTML более сложное, чем другие преобразования

PDF использует фиксированное позиционирование — каждый элемент имеет точное местоположение на странице, определенное в координатах. В HTML используется потоковая компоновка — элементы складываются и переносятся на основе правил. Преобразование между ними означает взятие контента, разработанного для определенного размера страницы с определенными позициями элементов, и преобразование его во что-то, что предназначено для адаптации к любой ширине экрана. Конвертер должен решить, воспроизводить ли фиксированный макет (используя абсолютное позиционирование CSS, которое выглядит идентично, но нарушает отзывчивость) или извлечь семантическую структуру (которая теряет точность макета, но лучше работает как веб-страница).

Большинство конвертеров PDF в HTML по умолчанию извлекают текст в порядке чтения с применением базового форматирования. Результат можно использовать для публикации текстового контента в Интернете, но он совсем не похож на исходный макет PDF.

WukongPDF

Попробуйте PDF в Word

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →

Инструменты, выполняющие преобразование

Adobe Acrobat Pro экспортирует в HTML через «Файл» → «Экспорт в» → «Веб-страница HTML». Он создает папку, содержащую файл HTML и отдельные файлы изображений для любой графики. В выводе сохраняется некоторая структура макета, но в значительной степени полагается на абсолютное позиционирование и фиксированную ширину, которые не адаптируются к экранам мобильных устройств.

Для преобразования текста без Acrobat практичным обходным решением является преобразование PDF в Word сначала с помощью PDF Converter, а затем сохранение документа Word как отфильтрованного HTML. HTML-вывод Word не является чистым — он включает много собственной разметки — но его можно читать и редактировать. Открытие этого HTML-кода в редакторе кода и очистка разметки вручную или вставка текстового содержимого напрямую в CMS зачастую более практичны, чем любой прямой путь из PDF в HTML.

Pdf2htmlEX — это инструмент с открытым исходным кодом, который создает высококачественный HTML-вывод путем тщательного воссоздания макета PDF с помощью CSS. Визуальная точность впечатляет, но генерируемый им HTML-код сложен и не предназначен для редактирования — он подходит для встраивания представления, подобного PDF, в веб-страницу, а не для создания редактируемого веб-контента.

Когда целью является веб-публикация

Если конечной целью является публикация содержимого PDF в виде полноценной веб-страницы (что-то, что может индексировать поисковая система, что-то, что работает на мобильных устройствах, что-то, что соответствует дизайну вашего сайта), то прямое преобразование PDF в HTML почти никогда не дает полезного результата без значительной ручной работы. Более надежный путь — извлечь текстовое содержимое из PDF, вставить его в CMS или редактор сайта и применить форматирование вручную, используя существующие стили и шаблоны вашего сайта.

Для длинных документов, переформатирование которых вручную занимает слишком много времени, преобразование в Word сначала дает вам более чистый промежуточный формат, который легче копировать и вставлять, чем необработанный текст PDF. Преобразование Word обеспечивает обнаружение абзацев, идентификацию заголовков и базовое форматирование, поэтому вы тратите меньше времени на реструктуризацию содержимого перед публикацией.

Встраивание содержимого PDF в веб-страницу без преобразования

Если ваша цель — отобразить PDF на веб-сайте, а не преобразовать его в HTML, встраивание зачастую лучше, чем преобразование. Размещение файла PDF и ссылка на него или встраивание его в iframe с помощью средства просмотра PDF, такого как PDF.js, точно сохраняет исходное форматирование и вообще не требует преобразования. Посетители видят PDF в том виде, в котором он был создан, и вы избегаете всех проблем с качеством преобразования. Компромисс заключается в том, что встроенные файлы PDF не индексируются поисковыми системами так же, как собственный HTML-контент.

WukongPDF

Попробуйте PDF в Word

Никакой установки не требуется. Работает прямо в вашем браузере.

Начать →