PDF 테이블에서 데이터를 가져오는 것은 실제로 시도하기 전까지는 간단해 보입니다. 복사하여 붙여넣으면 텍스트가 잘못 정렬되어 엉망이 됩니다. 스크린샷은 작업할 수 있는 숫자가 아닌 이미지를 제공합니다. 그리고 200행 테이블을 수동으로 다시 입력하는 것은 좋은 오후가 될 것이라고 생각하는 사람은 아무도 없습니다. 더 현명한 접근 방식이 있습니다. PDF 테이블 데이터를 Excel로 추출하는 과정을 훨씬 덜 수월하게 만드는 4가지 팁은 다음과 같습니다.

1. PDF 테이블이 실제 데이터인지 이미지인지 확인하세요
다른 것보다 먼저, 당신이 다루고 있는 것이 무엇인지 파악하십시오. 테이블에서 셀을 클릭합니다. 텍스트의 개별 부분을 강조 표시할 수 있다면 표는 선택 가능한 실제 텍스트로 구성되며 이를 추출하는 것은 간단합니다. 클릭하면 테이블 전체가 블록으로 선택되거나 아무 일도 일어나지 않으면 테이블 이미지가 표시됩니다.
텍스트 기반 테이블은 PDF-Excel 변환기를 사용하여 Excel로 직접 변환할 수 있습니다. 이미지 기반 테이블은 추출이 이루어지기 전에 시각적 데이터를 실제 텍스트로 변환하기 위해 먼저 OCR이 필요합니다. 어떤 방법을 사용하고 있는지 알면 잘못된 접근 방식을 시도하고 왜 작동하지 않는지 궁금해하는 일이 줄어듭니다.
스캔한 문서, 스프레드시트 사진, 특정 이전 소프트웨어에서 내보낸 PDF는 이미지 기반 테이블의 일반적인 원인입니다. Excel, Word 또는 최신 보고 도구에서 직접 내보낸 모든 항목에는 거의 항상 실제 텍스트가 포함됩니다.
PDF를 Excel로 사용해 보세요
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
2. 복사-붙여넣기 대신 PDF-Excel 변환기 사용
PDF에서 Excel로 표를 복사하여 붙여넣는 작업은 거의 제대로 작동하지 않습니다. 열이 접히고, 행이 병합되고, 숫자가 해당 단위에서 분리되고, 원래 데이터를 다시 입력하는 데 걸리는 것보다 정리하는 데 더 많은 시간이 소요됩니다. 이는 인식하지 못한 채 데이터 세트에 오류를 도입하는 신뢰할 수 있는 방법입니다.
전용 PDF-Excel 변환기는 행, 열, 병합된 셀 등 테이블 구조를 읽고 이를 적절한 스프레드시트에 매핑합니다. 특히 복잡한 다중 레벨 헤더의 경우 출력이 항상 완벽하지는 않지만 클립보드에 붙여넣는 것보다 훨씬 더 깨끗합니다. www.wukongpdf.com에 있는 WukongPDF의 PDF-Excel 도구는 소프트웨어 설치 없이 이 작업을 처리합니다. PDF를 업로드하고 스프레드시트를 다운로드하세요.
3. 필요한 페이지만 추출
PDF가 50페이지 보고서이고 필요한 테이블이 12~14페이지에 있는 경우 변환기를 통해 전체 문서를 실행할 이유가 없습니다. 먼저 해당 세 페이지를 별도의 PDF로 추출한 다음 더 작은 파일을 Excel로 변환하세요.
이 접근 방식에는 두 가지 장점이 있습니다. 변환기는 관련 없는 콘텐츠를 구문 분석하는 대신 관련 페이지에 초점을 맞추고, 테이블 감지를 방해할 수 있는 주변 텍스트, 머리글, 바닥글 및 기타 페이지 요소의 노이즈가 적기 때문에 출력이 더 깔끔합니다.
PDF 분할기를 사용하여 먼저 페이지를 추출한 다음 추출을 실행하십시오. 한 단계를 추가하지만 일반적으로 더 나은 결과를 생성합니다.
4. 정리 작업을 하고 어디를 봐야 할지 알아두세요
좋은 변환기를 사용하더라도 거의 항상 수동으로 정리해야 합니다. 문제는 다운스트림에서 문제가 발생하기 전에 문제를 포착할 수 있도록 어디를 확인해야 하는지 아는 것입니다.
PDF 테이블을 Excel로 변환한 후 가장 일반적인 문제:
- 텍스트로 저장된 숫자: 숫자처럼 보이지만 Excel에서는 텍스트로 처리되어 합산되지 않는 셀입니다. 열에서 왼쪽으로 정렬된 숫자를 찾아 확인합니다. Excel에서 숫자로 인식하는 경우 오른쪽으로 정렬되어야 합니다.
- 이전되지 않은 병합된 셀: PDF의 세 열에 걸쳐 있는 헤더는 Excel의 한 셀에만 배치되고 다른 셀은 비워 둘 수 있습니다.
- 셀 내부에서 줄 바꿈: PDF 셀의 여러 줄 내용이 Excel에서 여러 행으로 분할되는 경우가 있습니다.
- 통화 및 백분율 기호: 이러한 기호는 때때로 숫자에 첨부되지 않고 벗겨지거나 인접한 셀에 표시됩니다.
처음 몇 행을 빠르게 스캔하고 원본 PDF와 비교하여 총계를 무작위로 확인하면 일반적으로 중요한 내용을 찾아낼 수 있습니다. 대규모 데이터 세트의 경우 열에서 SUM을 실행하고 이를 PDF의 보고된 합계와 비교하면 숫자가 올바르게 전송되었는지 빠르게 확인할 수 있습니다.
올바른 도구를 사용하면 관리가 가능해집니다
PDF 테이블은 재무 보고서, 연구 데이터, 정부 서류, 재고 수출 등 모든 산업에 존재합니다. 해당 데이터를 사용 가능한 스프레드시트로 가져오는 것이 반드시 한 시간의 수동 작업을 의미할 필요는 없습니다. www.wukongpdf.com의 WukongPDF와 같은 견고한 PDF에서 Excel로의 변환기는 무거운 작업을 처리하고 나중에 확인할 사항을 알면 결과를 신뢰할 수 있게 유지합니다.
PDF를 Excel로 사용해 보세요
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
