Others

PDF를 HTML로 변환할 수 있나요?

PDF를 HTML로 변환하는 것은 기술적으로 가능하지만 PDF에 포함된 내용과 HTML로 수행하려는 작업에 따라 결과가 크게 달라집니다. 간단한 문서에서 읽을 수 있는 텍스트를 추출하려면 변환이 잘 작동합니다. 복잡한 레이아웃을 웹 페이지로 유지하려면 일반적으로 출력을 사용하기 전에 상당한 정리가 필요합니다.

Can You Convert PDF to HTML?

PDF를 HTML로 변환하는 것이 다른 변환보다 더 복잡한 이유

PDF는 고정 위치 지정을 사용합니다. 모든 요소는 좌표로 정의된 페이지의 정확한 위치를 갖습니다. HTML은 흐름 레이아웃을 사용합니다. 요소는 규칙에 따라 스택되고 래핑됩니다. 둘 사이를 변환한다는 것은 특정 페이지 크기와 특정 요소 위치에 맞게 설계된 콘텐츠를 모든 화면 너비에 맞게 변환하는 것을 의미합니다. 변환기는 고정 레이아웃을 재현할지(동일해 보이지만 응답성이 떨어지는 절대 CSS 위치 지정 사용) 또는 의미 구조를 추출할지(레이아웃 충실도는 떨어지지만 웹페이지로 더 잘 작동함) 결정해야 합니다.

대부분의 PDF-HTML 변환기는 기본적으로 기본 서식이 적용된 읽기 순서로 텍스트를 추출합니다. 결과는 웹에 텍스트 콘텐츠를 게시하는 데 사용할 수 있지만 원본 PDF 레이아웃과는 전혀 다릅니다.

WukongPDF

PDF를 Word로 사용해 보세요

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →

전환을 처리하는 도구

Adobe Acrobat Pro는 파일 → 다음으로 내보내기 → HTML 웹 페이지를 통해 HTML로 내보냅니다. HTML 파일과 모든 그래픽에 대한 별도의 이미지 파일이 포함된 폴더를 생성합니다. 출력은 일부 레이아웃 구조를 유지하지만 모바일 화면에 적용되지 않는 절대 위치 지정 및 고정 너비에 크게 의존합니다.

Acrobat을 사용하지 않고 텍스트 중심으로 변환하는 경우 먼저 PDF 변환기을 사용하여 PDF를 Word로 변환한 다음 Word 문서를 필터링된 HTML로 저장하는 것이 실용적인 해결 방법입니다. Word의 HTML 출력은 깨끗하지 않습니다. 여기에는 독점적인 마크업이 많이 포함되어 있지만 읽기 및 편집이 가능합니다. 코드 편집기에서 해당 HTML을 열고 마크업을 수동으로 정리하거나 텍스트 내용을 CMS에 직접 붙여넣는 것이 직접적인 PDF-HTML 경로보다 더 실용적인 경우가 많습니다.

Pdf2htmlEX는 CSS를 사용하여 PDF 레이아웃을 신중하게 다시 만들어 충실도가 높은 HTML 출력을 생성하는 오픈 소스 도구입니다. 시각적 정확성은 인상적이지만 생성되는 HTML은 복잡하고 편집용이 아닙니다. 편집 가능한 웹 콘텐츠를 생성하기보다는 웹 페이지에 PDF와 같은 보기를 삽입하는 데 적합합니다.

목표가 웹 퍼블리싱인 경우

최종 목표가 PDF 콘텐츠를 적절한 웹 페이지(검색 엔진이 색인화할 수 있는 것, 모바일에서 작동하는 것, 사이트 디자인에 맞는 것)로 게시하는 것이라면 직접적인 PDF-HTML 변환은 상당한 수작업 없이는 거의 사용 가능한 결과를 생성하지 않습니다. 보다 안정적인 경로는 PDF에서 텍스트 콘텐츠를 추출하여 CMS 또는 사이트 편집기에 붙여넣고 사이트의 기존 스타일과 템플릿을 사용하여 수동으로 서식을 적용하는 것입니다.

수동으로 다시 포맷하는 데 너무 많은 시간이 소요되는 긴 문서의 경우 먼저 Word로 변환하면 원시 PDF 텍스트보다 복사하여 붙여넣기가 더 쉬운 깔끔한 중간 형식이 제공됩니다. Word 변환은 단락 감지, 제목 식별 및 기본 서식을 처리하므로 게시하기 전에 콘텐츠를 재구성하는 데 소요되는 시간을 줄일 수 있습니다.

변환하지 않고 웹 페이지에 PDF 콘텐츠 삽입

PDF를 HTML로 변환하는 대신 웹 사이트에 표시하는 것이 목표라면 변환보다 삽입이 더 나은 경우가 많습니다. PDF 파일을 호스팅하고 링크하거나 PDF.js와 같은 PDF 뷰어를 사용하여 iframe에 삽입하면 원래 형식이 정확하게 유지되며 변환이 전혀 필요하지 않습니다. 방문자는 PDF를 설계된 대로 볼 수 있으며 모든 변환 품질 문제를 피할 수 있습니다. 단점은 포함된 PDF가 검색 엔진과 기본 HTML 콘텐츠에 의해 색인화되지 않는다는 것입니다.

WukongPDF

PDF를 Word로 사용해 보세요

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →