데이터 테이블이 있는 PDF는 Excel로 복사하기 쉬워 보입니다. 시도해 보고 데이터가 단일 열에 뒤죽박죽으로 나타나거나 잘못된 위치에 줄바꿈이 있거나 원래 테이블 구조와 일치하지 않는 병합된 셀이 있는 것을 발견하기 전까지는 말이죠. PDF에서 Excel로 테이블 데이터를 깔끔하게 가져오려면 특정 PDF 유형에 어떤 방법이 적합한지 알아야 합니다.

복사-붙여넣기가 일반적으로 지저분한 결과를 생성하는 이유
PDF는 행과 열이 있는 구조화된 테이블 데이터가 아니라 페이지의 특정 좌표에 배치된 개별 텍스트 요소인 위치 지정된 텍스트로 테이블 내용을 저장합니다. PDF에서 복사하여 붙여넣으면 파일의 내부 구조에 나타나는 순서대로 텍스트가 복사되므로 시각적 읽기 순서와 일치하지 않을 수 있습니다. 10개 행이 있는 3열 테이블은 열 구분 없이 30줄의 텍스트를 붙여넣을 수 있습니다.
일부 PDF 뷰어는 다른 뷰어보다 붙여넣는 동안 테이블 감지를 더 잘 처리합니다. Adobe Acrobat Reader의 사본은 브라우저 기반 뷰어보다 더 나은 결과를 생성하는 경향이 있습니다. 그러나 복잡한 테이블의 경우 복사-붙여넣기는 상당한 수동 정리 없이 사용할 수 있을 만큼 깨끗하지 않습니다.
PDF를 Excel로 사용해 보세요
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
가장 좋은 방법: PDF을(를) Excel로 직접 변환
전용 PDF-Excel 변환기는 PDF의 레이아웃을 분석하고 테이블 구조를 식별하며 내용을 스프레드시트 셀에 매핑합니다. 그 결과 테이블 행과 열이 원본 PDF 레이아웃에 해당하는 Excel 파일이 생성됩니다. 이는 복사하여 붙여넣는 것보다 훨씬 깔끔합니다.
www.wukongpdf.com에 있는 WukongPDF의 PDF to Excel 도구가 이를 처리합니다. 즉, PDF를 업로드하고 Excel 파일을 다운로드합니다. 명확한 테이블 구조를 갖춘 디지털 PDF의 경우 변환은 일반적으로 최소한의 수정만으로 사용할 수 있을 만큼 깨끗합니다. 병합된 셀, 중첩된 헤더 또는 불규칙한 구조가 있는 복잡한 테이블의 경우 일부 수동 정리가 여전히 필요하지만 복사하여 붙여넣는 것보다 훨씬 적습니다.
스캔된 PDFs: 먼저 OCR을 수행한 다음 변환
테이블이 포함된 PDF가 스캔(디지털 문서가 아닌 페이지 이미지)인 경우 복사-붙여넣기는 전혀 작동하지 않으며(복사할 텍스트가 없음) 직접 변환하면 결과가 좋지 않습니다. 스캔된 테이블은 실제 텍스트를 추출하기 위해 먼저 OCR 처리가 필요하며, 그 다음 텍스트를 테이블 구조로 해석해야 합니다.
일부 PDF-Excel 변환기는 스캔한 문서를 감지하면 자동으로 OCR을 적용합니다. 다른 경우에는 먼저 OCR을 실행한 다음 변환해야 합니다. 변환을 시도하기 전에 스캔 품질을 확인하십시오. 행과 열 경계가 명확한 테이블은 희미한 선이나 불규칙한 간격이 있는 테이블보다 더 잘 변환됩니다.
Adobe Acrobat Pro: Excel로 내보내기
Adobe Acrobat Pro에는 Excel로 내보내기 기능이 내장되어 있습니다(파일 > 다음으로 내보내기 > 스프레드시트 > Microsoft Excel 통합 문서). 이는 사용 가능한 가장 정확한 테이블 추출 도구 중 하나입니다. Acrobat의 테이블 감지 알고리즘은 성숙되었으며 광범위한 테이블 유형을 처리합니다.
내보내기를 수행하면 각 페이지의 각 테이블이 별도의 워크시트나 섹션에 배치되는 Excel 파일이 생성됩니다. 복잡한 다중 페이지 테이블, 반복되는 헤더가 있는 테이블, 병합된 셀이 있는 테이블은 모두 합리적으로 잘 처리됩니다. Acrobat Pro를 사용할 수 있는 경우 이는 표 추출을 위한 최고 품질 옵션입니다.
복사-붙여넣기가 유일한 옵션인 경우 — 정리 방법
변환 도구를 사용할 수 없고 복사-붙여넣기를 사용해야 하는 경우 다음 단계를 수행하면 정리 작업이 최소화됩니다.
- Adobe Reader에서 표 텍스트를 선택하고 편집 > 가능한 경우 서식을 지정하여 복사 - 일반 복사보다 표 형식 구조를 더 많이 보존합니다.
- Excel에 직접 넣지 않고 먼저 텍스트 편집기(메모장, TextEdit)에 붙여넣습니다. 이렇게 하면 복잡한 Excel의 셀 서식 지정 없이 원시 구조를 볼 수 있습니다.
- 텍스트 편집기에서 텍스트를 복사하고 선택하여 붙여넣기 >를 사용하여 Excel에 붙여넣습니다. 텍스트
- Excel의 텍스트를 열로 기능(데이터 > 텍스트를 열로)을 사용하여 붙여넣은 데이터를 구분 기호나 고정 너비를 기준으로 별도의 열로 분할합니다.
어떤 도구도 깨끗한 결과를 내지 못하는 경우
테이블 내에 중첩된 테이블, 복잡하게 병합된 셀 패턴이 있는 테이블, 반복되는 헤더가 있는 여러 페이지에 걸쳐 있는 테이블 또는 PDF의 공식적인 테이블 마크업 없이 데이터가 시각적으로 구조화된 테이블과 같은 일부 테이블은 자동화 도구를 사용하기가 정말 어렵습니다. 이를 위해 가장 실용적인 접근 방식은 PDF를 참조로 사용하여 수동으로 데이터를 입력하는 것입니다. 작은 테이블의 경우 자동화된 도구를 사용하여 깔끔한 결과를 생성한 다음 모든 오류를 수동으로 수정하는 것보다 시간이 덜 걸립니다.
PDF를 Excel로 사용해 보세요
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
