PDF에서 단락을 복사하여 다른 곳에 붙여 넣으면 모든 줄이 하드 리턴으로 끝납니다. 텍스트는 리플로우되지 않고 페이지에서 줄이 끝나는 곳마다 끊어집니다. 이는 가장 일반적인 PDF 문제 중 하나이며, 이러한 문제가 발생하는 이유와 이에 대해 수행할 수 있는 작업을 설명하는 구체적인 기술적 원인이 있습니다.

이런 일이 발생하는 이유: PDF에서 텍스트를 저장하는 방법
PDF는 Word나 Google Docs처럼 텍스트를 단락으로 저장하지 않습니다. 대신 개별 문자 또는 작은 문자 그룹을 각각 페이지의 특정 위치에 저장합니다. 즉, 각 텍스트 조각이 표시되어야 하는 위치에 정확히 배치되는 X 및 Y 좌표입니다. PDF 렌더러는 이러한 배치된 조각을 그려 사용자가 보는 시각적 결과를 생성합니다.
텍스트를 복사할 때 PDF 뷰어는 이러한 위치의 조각에서 텍스트 스트림을 재구성해야 합니다. 문자를 순서대로 읽고 수직 위치 변화에 따라 한 줄이 끝나고 다른 줄이 시작되는 위치를 추측해야 합니다. 줄 바꿈(Y 위치의 점프)을 감지하면 줄 바꿈 문자를 삽입합니다. 결과적으로 PDF의 모든 시각적 줄은 붙여넣은 텍스트에서 별도의 줄이 됩니다.
이는 특정 뷰어의 버그가 아니라 PDF 텍스트 추출 작동 방식의 기본 특성입니다. 일부 PDF에는 보는 사람이 소프트 라인 줄 바꿈(단락 내)과 하드 단락 구분을 구별하는 데 도움이 되는 구조적 정보가 포함되어 있습니다. 그러나 많은 경우 특히 오래된 PDF 또는 특정 소프트웨어에서 내보낸 파일은 그렇지 않습니다.
PDF 편집해 보세요
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
나쁜 경우: 다중 열 레이아웃
다중 열 레이아웃은 이 문제를 더욱 악화시킵니다. 텍스트가 두 개 또는 세 개의 열로 흐르는 경우 왼쪽에서 오른쪽, 위에서 아래 순서로 텍스트를 추출하는 PDF 뷰어는 종종 다른 열의 텍스트를 인터리브합니다(왼쪽 열의 한 줄, 오른쪽 열의 한 줄, 왼쪽의 다음 줄). 생성된 페이스트는 뒤섞여 있으며 상당한 수동 정리가 필요합니다.
2단 형식의 학술 논문은 이 문제로 악명 높습니다. 연구 논문 PDF에서 단락을 복사하면 깔끔한 단일 열 텍스트 블록이 아닌 두 열에서 교대로 조각이 생성되는 경우가 많습니다.
소량의 텍스트에 대한 빠른 수정
몇몇 단락의 경우 붙여넣은 후 텍스트 편집기나 워드 프로세서에서 찾기 및 바꾸기 작업을 수행하는 것이 가장 빠른 해결 방법입니다. 이중 줄 바꿈(진짜 문단을 구분하는)을 유지하면서 한 줄 바꿈(문단 내에서 원하지 않는 줄 바꿈)을 바꾸고 싶습니다.
Microsoft Word에서는 찾기 & 와일드카드로 바꾸기: 뒤에 다른 단락 기호가 오지 않는 단일 단락 기호(^p)를 공백으로 바꿉니다. 일반 텍스트 편집기에서 대부분의 찾기 및 바꾸기 도구를 사용하면 정규식을 사용하여 동일한 작업을 수행할 수 있습니다. 이렇게 하면 30줄의 깨진 붙여넣기가 몇 초 만에 적절하게 리플로우되는 단락으로 줄어듭니다.
대량 텍스트에 대한 더 나은 접근 방식
PDF에서 많은 양의 텍스트를 추출하는 경우 복사-붙여넣기는 잘못된 도구입니다. PDF 변환기를 사용하여 PDF를 Word로 변환하면 변환 프로세스가 원시 문자 위치를 추출하는 대신 문서 구조(문단, 제목 및 레이아웃 식별)를 재구성하려고 시도하기 때문에 더 나은 결과를 얻을 수 있습니다.
변환된 Word 문서는 특히 복잡한 레이아웃의 경우 여전히 검토가 필요하지만 단락 구조는 일반적으로 그대로 유지되며 전체 문서에서 한 줄씩 나누는 작업을 처리하지 않습니다.
시청자별 개선 사항
일부 PDF 뷰어는 다른 뷰어보다 텍스트 추출을 더 잘 처리합니다. Adobe Acrobat Reader에는 "서식을 적용하여 복사" 기본 복사보다 단락을 더 잘 재구성하는 옵션입니다. 정기적으로 텍스트를 추출하는 경우 동일한 PDF에서 다양한 뷰어를 테스트하면 더 깔끔한 출력을 생성하는 뷰어를 찾는 경우가 있습니다.
궁극적으로 텍스트 추출의 품질은 PDF 생성 방법에 따라 달라집니다. 적절한 단락 태그 지정을 사용하여 최신 워드 프로세서에서 내보낸 잘 구조화된 PDF는 깔끔하게 추출됩니다. 파일로 인쇄되거나, 이미지에서 변환되거나, 구조 정보가 포함되지 않은 소프트웨어에서 내보낸 PDF는 복사 시 항상 깨진 텍스트를 생성합니다. 해당 파일의 경우 Word로 변환하는 것이 안정적인 경로입니다.
PDF 편집해 보세요
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
