Tips & Tricks

손상된 PDF에서 텍스트를 복구하는 방법

3년 전 계약서의 유일한 사본은 이제 오류 메시지가 열리는 PDF입니다. 현재는 없어진 웹사이트에서 다운로드한 연구 보고서에는 4페이지 이후에는 아무것도 표시되지 않습니다. 클라이언트가 서명한 계약서는 오류가 발생한 드라이브에 저장되었으며 복구된 파일은 부분적으로 손상되었습니다. 이러한 상황은 스트레스를 주지만 항상 절망적이지는 않습니다. 손상된 PDF에서 텍스트를 복구하는 것은 사람들이 기대하는 것보다 더 자주 가능합니다. 문제는 어떤 접근 방식을 먼저 시도할지 아는 것입니다.

How to Recover Text From a Damaged PDF

당신이 겪고 있는 피해의 종류를 이해하세요

모든 PDF 손상이 동일한 것은 아니며 복구 접근 방식은 무엇이 잘못되었는지에 따라 다릅니다. 몇 가지 간단한 관찰을 통해 많은 것을 알 수 있습니다.

  • 파일이 전혀 열리지 않습니다: 파일 헤더나 내부 구조가 손상되었습니다. 복구 도구는 콘텐츠에 액세스하기 전에 파일 구조를 재구성해야 합니다.
  • 파일이 열리지만 일부 페이지가 비어 있거나 누락됨: 부분 손상 — 파일 구조는 손상되지 않았지만 일부 콘텐츠 개체가 손상되거나 누락되었습니다. 복구에서는 손상되지 않은 부분을 검색할 수 있습니다.
  • 텍스트가 기호나 잘못된 문자로 표시됩니다. 글꼴 인코딩이 손상되었습니다. 텍스트 데이터는 손상되지 않을 수 있지만 문자와 글리프 간의 매핑이 깨졌습니다.
  • 파일이 매우 작습니다(훨씬 커야 할 경우 몇 KB): 다운로드 또는 전송이 완료되지 않았습니다. 파일이 완전히 수신되지 않았습니다. 소스에서 새 복사본을 얻는 것이 복구가 아니라 수정입니다.
WukongPDF

PDF 복구를 시도해보세요

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →

다른 것보다 먼저 다른 PDF 뷰어를 사용해 보세요

한 뷰어에서 실패한 일부 파일은 다른 뷰어에서는 성공적으로 열립니다. Adobe Reader, Chrome에 내장된 PDF 뷰어, Apple Preview, Foxit 및 Sumatra PDF는 모두 서로 다른 렌더링 엔진을 사용합니다. 한 엔진이 구문 분석할 수 없는 파일은 다른 엔진의 복구 허용 범위 내에 있을 수 있습니다.

뷰어가 파일을 부분적으로 열면 즉시 보이는 모든 텍스트를 복사(Ctrl+A, Ctrl+C)하여 Word 문서에 붙여넣어 보십시오. 이는 파일 구조가 복구 가능한지 여부에 관계없이 파일의 현재 상태에서 액세스할 수 있는 모든 텍스트를 캡처합니다. 불완전한 텍스트 추출은 아예 없는 것보다 낫고, 심각하게 손상된 파일에서도 대부분의 콘텐츠를 캡처할 수 있습니다.

PDF 복구 도구 사용

전용 Repair PDF 도구는 손상된 파일에서 복구 가능한 콘텐츠 개체(텍스트 스트림, 이미지, 페이지 정의)를 검색하고 찾을 수 있는 모든 항목에서 유효한 PDF를 다시 작성하여 내부 파일 구조를 재구성하려고 시도합니다. 이는 단순히 파일을 여는 것과는 다릅니다. 수리 도구는 특히 구조적 손상을 찾아 해결합니다.

www.wukongpdf.com에 있는 WukongPDF의 복구 도구가 이를 처리합니다. 손상된 파일을 업로드하고 복구 프로세스를 실행한 다음 복구 가능한 항목을 다운로드합니다. 대부분의 내용은 손상되지 않았지만 파일 구조가 손상된 부분적으로 손상된 파일의 경우 완전히 읽을 수 있는 PDF가 생성되는 경우가 많습니다. 심하게 손상된 파일의 경우 콘텐츠의 일부를 복구할 수 있습니다. 출력은 손상에서 살아남은 기본 데이터의 양에 따라 달라집니다.

파일 데이터에서 직접 텍스트 추출

PDF 파일은 파일 구조 내의 스트림에 텍스트를 저장합니다. PDF 구조가 너무 손상되어 뷰어가 문서를 렌더링할 수 없는 경우에도 텍스트 스트림은 여전히 ​​손상되지 않고 올바른 도구를 사용하여 읽을 수 있습니다. 기술적으로 자신감이 있는 사용자의 경우 텍스트 편집기(PDF 뷰어 아님)에서 PDF를 열면 파일의 원시 데이터에 포함된 읽을 수 있는 텍스트 콘텐츠가 표시될 수 있습니다. 바이너리 콘텐츠 중에서 읽을 수 있는 문자 문자열을 찾으세요.

pdftotext(poppler 패키지의 일부)와 같은 명령줄 도구는 표준 뷰어에서 열리지 않는 PDFs에서 텍스트를 추출할 수 있습니다. 손상된 파일에서 pdftotext를 실행하면 시각적 렌더링이 완전히 실패하더라도 상당한 텍스트 콘텐츠가 복구되는 경우가 있습니다. 이 접근 방식을 사용하려면 명령줄 도구에 익숙해야 하지만 GUI 도구가 놓친 콘텐츠에 액세스할 수 있습니다.

특수 사례: 손상된 스캔본 PDFs

스캔한 PDF는 콘텐츠를 텍스트가 아닌 이미지로 저장합니다. 스캔한 PDF의 이미지 데이터가 손상된 경우 텍스트 추출 도구가 도움이 되지 않습니다. 추출할 텍스트 레이어가 없습니다. 복구 가능한 콘텐츠는 이미지 데이터 자체입니다.

부분적으로 손상된 스캔 PDF의 경우 이미지 개체를 복구하는 복구 도구를 사용하면 파일 구조가 손상된 경우에도 볼 수 있는 문서를 생성할 수 있습니다. 복구 후 복구된 문서에 OCR을 실행하면 이미지 내용이 검색 가능한 텍스트로 변환되므로 복구된 버전이 검색할 수 없는 원본 스캔보다 더 유용해집니다.

복구가 할 수 있는 것과 할 수 없는 것

손상된 PDF의 텍스트 복구는 보장되지 않습니다. 성공률은 손상 유형과 정도에 따라 다릅니다.

  • 콘텐츠가 손상되지 않은 구조적 손상: 높은 복구율 - 콘텐츠는 있지만 파일이 이를 올바르게 표시할 수 없음
  • 부분 콘텐츠 손상: 부분 복구 - 일부 페이지 또는 섹션은 복구 가능하고 일부는 손실됨
  • 덮어쓴 스토리지 섹터: 복구가 낮거나 없음 — 기본 데이터를 덮어쓴 경우 어떤 도구에서도 이를 다시 생성할 수 없습니다.
  • 불완전한 다운로드(파일이 잘림): 복구를 시도하기보다는 새로운 복사본을 얻으세요.

미래를 위한 교훈: 중요한 문서의 경우 여러 복사본을 서로 다른 위치에 보관하십시오. 다른 드라이브의 백업, 클라우드 저장소의 복사본, 자신에게 보내는 이메일 등 이 모든 것이 PDF 복구 도구를 불필요하게 만드는 복구 경로를 제공합니다. 가장 좋은 수리 PDF 시나리오는 사용할 필요가 전혀 없는 시나리오입니다.

WukongPDF

PDF 복구를 시도해보세요

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →