PDF에서 일반 텍스트 파일 또는 편집 가능한 문서로 텍스트를 추출하는 것은 가장 자주 필요한 PDF 작업 중 하나입니다. 가장 효과적인 접근 방식은 PDF에 실제 텍스트 레이어가 있는지 아니면 스캔한 이미지인지, 그리고 추출된 텍스트로 무엇을 할 계획인지에 따라 달라집니다.

가장 간단한 방법: 복사하여 붙여넣기
선택 가능한 텍스트가 있는 PDF의 경우 텍스트 편집기나 워드 프로세서에 복사하여 붙여넣는 것이 가장 빠른 방법인 경우가 많습니다. PDF를 열고 Ctrl+A를 눌러 모두 선택하고 Ctrl+C를 눌러 복사한 다음 Ctrl+V를 눌러 메모장, TextEdit, Word 또는 텍스트가 필요한 곳에 붙여넣습니다. 이는 짧은 문서나 구조 보존에 신경 쓰지 않고 콘텐츠가 빨리 필요한 경우에 적합합니다.
제한 사항: 복사-붙여넣기는 서식을 유지하지 않으며 여러 열로 구성된 PDFs 또는 복잡한 레이아웃이 있는 문서의 경우 텍스트가 잘못된 순서로 나오는 경우가 많습니다. 즉, 열이 인터리브되고 각주가 단락 중간에 나타나고 머리글과 바닥글이 본문 텍스트에 혼합됩니다. 단순한 선형 문서의 경우 이는 문제가 되지 않습니다. 복잡한 레이아웃의 경우 추출된 텍스트를 작업하기 어렵게 만들 수 있습니다.
PDF를 Word로 사용해 보세요
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
더 나은 구조를 위해 Word로 변환
텍스트 추출에서 단락, 제목 및 기본 구조를 보존해야 하는 경우(단순히 일반 텍스트로 읽는 대신 워드 프로세서에서 콘텐츠를 편집할 수 있음) 복사하여 붙여넣는 것보다 Word로 변환하는 것이 더 나은 방법입니다. PDF 변환기은 모든 텍스트를 읽기 순서대로 덤프하는 대신 문서 구조를 분석하고 단락, 제목, 목록 및 표를 적절한 Word 요소로 재구성하려고 시도합니다.
Google Docs는 이 작업을 무료로 수행합니다. PDF를 드라이브에 업로드하고 Google Docs로 열면 텍스트가 합리적으로 보존된 구조로 표시됩니다. 복잡한 문서를 보다 정확하게 변환하기 위해 전용 PDF-to-Word 도구는 Google에 내장된 가져오기 도구보다 레이아웃 분석을 더 효과적으로 처리합니다.
일반 텍스트(.txt)로 추출
데이터 처리, 다른 도구에 콘텐츠 공급 또는 서식 없이 텍스트 콘텐츠만 보관하는 경우 일반 .txt 추출이 Word 변환보다 더 깔끔합니다. Adobe Acrobat(유료 버전)은 파일 → 내보내기 위치 → 텍스트(일반)를 통해 PDF를 일반 텍스트로 저장할 수 있습니다. 무료 Acrobat Reader는 텍스트로 저장할 수 없지만 모두 복사하여 메모장에 붙여 넣을 수 있으며 이는 사실상 동일한 결과입니다.
일괄 추출 또는 프로그래밍 방식 사용의 경우 pdfplumumber 또는 PyPDF2 라이브러리가 있는 Python은 여러 PDF에서 자동으로 텍스트를 추출하므로 많은 문서를 처리해야 할 때 유용합니다. pdftotext(Poppler 유틸리티 패키지의 일부, Homebrew를 통해 Mac에서 사용 가능, 패키지 관리자를 통해 Linux에서 사용 가능)와 같은 명령줄 도구는 코드를 작성하지 않고도 동일한 작업을 효율적으로 수행합니다.
스캔된 PDF: OCR 우선
텍스트 레이어 없이 스캔한 PDF의 경우 위의 방법 중 어느 것도 작동하지 않습니다. 추출할 텍스트가 없습니다. 페이지가 이미지로 저장됩니다. 추출이 가능하기 전에 먼저 OCR을 실행하여 문자를 인식하고 텍스트 레이어를 생성해야 합니다. WukongPDF의 OCR PDF 도구는 PDF에 텍스트 레이어를 추가합니다. 그 후에는 위의 복사-붙여넣기 또는 변환 방법이 OCR 버전에서 정상적으로 작동합니다.
Google Drive의 Open with Google Docs는 스캔한 PDFs에서 자동으로 OCR을 실행합니다. 이는 OCR 및 텍스트 추출이 단일 단계로 이루어지고 스캔에서 직접 편집 가능한 문서를 생성하기 때문에 더 편리한 무료 옵션 중 하나입니다. 정확도는 항상 그렇듯이 스캔 품질에 따라 달라집니다.
텍스트 추출에서 손실되는 것
모든 텍스트 추출에서는 이미지, 차트, 다이어그램 및 시각적 서식이 삭제됩니다. 테이블은 탭으로 구분된 텍스트로 표시될 수도 있고 추출 방법에 따라 뒤섞일 수도 있습니다. 수학 표기법, 화학 공식 및 특수 기호는 추출 후에도 제대로 유지되지 않는 경우가 많습니다. 생략되거나 자리 표시자 문자로 대체되거나 잘못된 시퀀스로 렌더링될 수 있습니다. 이러한 요소가 중요한 문서의 경우 일반 텍스트가 아닌 Word로 변환하면 원래 구조가 더 많이 보존됩니다.
PDF를 Word로 사용해 보세요
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
