PDF에서 텍스트를 복사하여 다른 곳에 붙여넣으면 결과가 잘못된 것처럼 보입니다. 문자 순서가 잘못되었습니다. "fi" 'ㅇ'이 되다 또는 사라지거나, 단어가 공백 없이 함께 연결되거나, 특수 문자가 물음표로 변합니다. 이는 PDF 텍스트 인코딩 문제이며, 문제가 발생하는 이유와 해결 방법을 설명하는 구체적인 원인이 있습니다.

PDF에서 텍스트를 저장하는 방법과 문제가 발생하는 이유
PDF는 주로 시각적 형식으로 설계되었습니다. 즉, 텍스트의 의미가 아니라 페이지의 모양을 정확하게 설명합니다. PDF의 내부 텍스트 인코딩은 표준 유니코드와 상당히 다를 수 있습니다. 일부 PDF는 내부에 저장된 문자 코드가 표준 문자 코드와 일치하지 않는 사용자 정의 글리프 매핑을 사용합니다. 따라서 복사할 때 클립보드는 표시되는 문자가 아닌 내부 코드를 수신합니다.
잘 구성된 PDF에는 내부 코드를 표준 유니코드 문자로 변환하는 방법을 사용자에게 알려주는 ToUnicode 매핑 테이블이 포함되어 있습니다. 이 테이블이 없거나 불완전하거나 잘못된 경우 텍스트가 화면에 완벽하게 표시되더라도 복사하여 붙여넣으면 잘못된 결과가 생성됩니다. 디스플레이와 복사 가능한 텍스트는 서로 다른 시스템에서 나옵니다. 디스플레이는 시각적 문자 모양을 사용하고 복사-붙여넣기는 텍스트 데이터를 사용합니다.
PDF OCR을 사용해 보세요.
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
연자 및 특수 문자
합자는 "fi", "fl", "ff", "ffi"와 같은 활자체 조합입니다. — 미학적 이유로 두 개 또는 세 개의 문자가 하나의 문자 모양으로 결합되는 경우입니다. 잘못 인코딩된 PDF에서 합자 문자 모양에는 그것이 나타내는 개별 문자에 대한 ToUnicode 매핑이 없습니다. 복사되면 합자는 단일 특수 문자(fi 대신 fi)가 되거나, 아무 것도 되지 않거나, 자리 표시자 기호가 됩니다.
이것이 전문적으로 조판된 PDF를 복사하면 "office"와 같은 문자가 누락된 텍스트가 생성되는 이유입니다. "o ce"가 되다 왜냐하면 "ffi" 합자에는 사용 가능한 유니코드 매핑이 없습니다. 화면에서는 그 단어가 정확해 보였습니다. 기본 텍스트 데이터가 손상되었습니다.
단어 사이에 공백이 없음
일부 PDF는 공백을 텍스트 스트림의 실제 공백 문자가 아닌 위치 오프셋으로 나타냅니다. 뷰어는 공백 문자를 삽입하는 것이 아니라 커서 위치를 이동하여 단어 사이의 간격을 렌더링합니다. 복사할 때 위치 오프셋은 공백 문자로 변환되지 않으므로 단어가 함께 실행됩니다. "단어" 대신에.
이는 표준 텍스트 인코딩을 통하지 않고 디자인 수준에서 텍스트 간격이 제어되는 경우 InDesign 또는 Illustrator와 같은 디자인 응용 프로그램에서 내보낸 PDFs에서 흔히 발생합니다.
열 및 읽기 순서 문제
여러 열로 구성된 PDF에서는 시각적 읽기 순서(1열 아래, 2열 아래)가 내부 텍스트 순서(전체 페이지 너비에서 왼쪽에서 오른쪽으로)와 일치하지 않을 수 있습니다. 2열 레이아웃에서 텍스트를 복사하면 열 간에 한 줄씩 번갈아 나타나는 텍스트가 생성되어 각 개별 단어가 정확하더라도 뒤섞인 것처럼 보이게 되는 경우가 많습니다.
이것은 인코딩 문제가 아니라 읽기 순서 문제입니다. 텍스트가 올바르게 인코딩되었습니다. 인간이 읽는 방식과 일치하지 않는 순서로 저장되었을 뿐입니다. 해결 방법은 두 열을 모두 선택하는 대신 한 번에 한 열에서 텍스트를 복사하는 것입니다.
복사된 텍스트가 깨졌을 때 해결 방법
- 다른 PDF 뷰어를 사용해 보세요. 다른 뷰어는 ToUnicode 매핑을 다르게 처리합니다. Chrome 사본에서 텍스트가 왜곡된 경우 Adobe Reader에서 복사해 보세요. 동일한 PDF에 대해 더 깔끔한 결과를 생성하는 경우가 많습니다.
- Word로 먼저 변환: a PDF Word로 변환기는 변환 중에 텍스트 인코딩을 다시 처리합니다. 결과 Word 문서는 원래 PDF가 그렇지 않은 경우에도 깨끗한 복사-붙여넣기를 생성하는 경우가 많습니다.
- 사본에서 OCR 실행: OCR 도구는 페이지 이미지에서 보이는 텍스트를 다시 읽고 새롭고 올바르게 인코딩된 텍스트를 만듭니다. OCR PDF 결과는 특히 잘못 인코딩된 전문 조판의 경우 원래 인코딩보다 더 나은 복사-붙여넣기를 생성할 수 있습니다.
- 찾기 & 사용 일반적인 오류에 대해 바꾸기: 동일한 합자 또는 문자가 계속 잘못 붙여넣어지면 붙여넣은 결과를 Word에 붙여넣고 찾기 & 전체적으로 반복되는 오류를 수정하려면 교체하세요.
원인의 문제 예방
PDF를 생성하고 수신자에 대한 완전한 복사-붙여넣기 동작을 보장하려면 올바른 ToUnicode 매핑을 생성하는 응용 프로그램을 사용하십시오. Microsoft Word는 기본적으로 적절한 유니코드 매핑을 사용하여 내보냅니다. Adobe InDesign은 설정에 따라 적절한 텍스트 인코딩을 사용하거나 사용하지 않고 내보낼 수 있습니다. PDF 내보내기 대화 상자에서 "탭 순서에 문서 구조 사용" 텍스트 접근성 옵션이 활성화됩니다. 인코딩 문제가 수신자에게 도달하기 전에 파악하려면 배포하기 전에 내보낸 PDF에서 복사하여 붙여넣기를 테스트하세요.
PDF OCR을 사용해 보세요.
설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.
