스캔한 PDF에서 텍스트를 선택 가능하게 만드는 방법

스캔한 PDF에는 눈으로 읽을 수 있지만 클릭, 선택, 복사 또는 검색할 수 없는 텍스트가 표시됩니다. 그 이유는 "텍스트" 실제로는 사진입니다. 문자처럼 보이도록 배열된 픽셀입니다. 텍스트를 선택 가능하게 만들려면 이미지를 읽고 실제 텍스트 레이어를 문서에 추가하는 OCR을 실행해야 합니다. OCR 후 PDF는 동일해 보이지만 텍스트는 복사, 검색 및 액세스가 가능해집니다.

How to Make Text Selectable in a Scanned PDF

OCR이 스캔한 문서에 수행하는 작업 PDF

OCR(광학 문자 인식)은 각 페이지 이미지의 픽셀 패턴을 분석하고 문자와 숫자에 해당하는 모양을 식별하며 보이는 문자와 정렬되도록 숨겨진 텍스트 레이어를 만듭니다. OCR PDF 처리 후 문서에는 원본 스캔 이미지(변경되지 않고 계속 표시됨)와 뷰어가 선택하거나 검색할 때 사용하는 텍스트 레이어라는 두 개의 레이어가 있습니다.

문서의 시각적 모양은 변경되지 않습니다. 스캔은 OCR 전후에 동일하게 보입니다. 변경된 점은 문서의 기능입니다. 텍스트를 문자별로 선택할 수 있고, Ctrl+F 검색이 작동하고, 복사-붙여넣기를 하면 아무것도 없는 대신 실제 텍스트가 생성되고, 화면 판독기가 내용을 소리내어 읽을 수 있습니다.

PDF OCR을 사용해 보세요.

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →

WukongPDF의 OCR 도구 사용

www.wukongpdf.com의 WukongPDF는 소프트웨어 설치 없이 브라우저에서 OCR을 처리합니다. 스캔한 PDF를 업로드하고, 인식 정확도를 높이기 위해 문서 언어를 선택하고, 처리한 후 검색 가능한 결과를 다운로드하세요. 변환된 파일은 텍스트 레이어가 있는 표준 PDF이며 모든 PDF 뷰어와 호환됩니다.

다운로드 후 즉시 테스트하세요. PDF를 열고 Ctrl+F를 누른 다음 첫 페이지에 표시되는 단어를 검색하세요. 발견되면 OCR이 작동한 것입니다. 문장을 선택하고 복사해 보세요. 붙여넣은 텍스트가 표시된 내용과 일치해야 합니다. 아무것도 찾지 못하거나 복사된 텍스트가 잘못된 것처럼 보이는 경우 스캔 품질로 인해 OCR에 정확성 문제가 있는 것 같습니다.

Adobe Acrobat의 스캔 향상

Adobe Acrobat Pro 및 Acrobat Standard에는 스캔 향상이라는 전용 OCR 기능이 포함되어 있습니다. 스캔한 PDF를 열고 도구 > 스캔 향상 > 텍스트 인식 > 이 파일에. 문서 언어를 설정하고 텍스트 인식을 클릭하세요. Acrobat은 페이지를 처리하고 텍스트 레이어를 추가합니다. 여러 페이지로 구성된 문서의 경우 Acrobat은 한 번의 작업으로 모든 페이지를 처리합니다.

Acrobat은 또한 "검색 가능하게 만들기" 전체 OCR과 약간 다른 옵션 — 문서 구조를 재구성하지 않고 텍스트 레이어를 추가합니다. 대부분의 경우 표준 텍스트 인식 옵션은 정확한 텍스트 위치 지정으로 적절하게 구조화된 스캔 PDF을 생성하므로 선호됩니다.

OCR 정확도에 영향을 미치는 요소

OCR 정확도는 스캔 품질과 직접적인 관련이 있습니다. 잘 스캔된 동일한 문서는 거의 완벽한 결과를 생성합니다. 제대로 스캔되지 않으면 수동 수정이 필요한 오류가 발생합니다.

해상도: 300 DPI는 안정적인 OCR을 위한 최소값입니다. 200 DPI 미만에서는 특히 작은 텍스트에서 오류가 자주 발생합니다. 600 DPI는 정확성을 향상시키지만 대용량 파일을 생성합니다.
대비: 거의 완벽에 가까운 정확도로 흰색 종이 스캔의 선명한 검정색 텍스트입니다. 색이 바랜 잉크, 색종이 또는 낮은 대비로 인해 오류가 더 많이 발생합니다.
기울어짐: 페이지를 상당한 각도로 스캔하면 더 많은 오류가 발생합니다. 최신 OCR 도구에는 약간의 기울어짐을 수정하기 위한 기울기 조정이 포함되어 있지만 각도가 심하면 정확도가 떨어집니다.
글꼴 유형: 일반적인 글꼴(Times, Arial, Helvetica)의 표준 인쇄 서체는 정확하게 인식됩니다. 장식적이거나 손으로 쓴 글꼴 또는 매우 작은 글꼴은 오류를 더 많이 발생시킵니다.

OCR 후: 텍스트에 의존하기 전에 검토

OCR은 완벽하지 않습니다. 심지어 고품질 스캔이라도 가끔 인식 오류가 발생합니다. 일반적인 실수에는 0과 O, 1과 l, rn과 m, 페이지 가장자리 근처의 문자를 잘못 읽는 것 등이 포함됩니다. 정확성이 중요한 문서(계약서, 재무제표, 법적 서류 등)의 경우 OCR 출력을 원본과 비교하여 검토한 후 참조하세요.

Acrobat Pro에서는 찾기 & 바꾸기 기능은 일반적인 OCR 오류를 체계적으로 찾는 데 도움이 됩니다. "0"을 검색하세요. 각 결과를 확인하여 "O"가 되어야 하는지, 아니면 그 반대인지 확인하세요. 중요한 문서의 경우 원본 스캔을 완전히 교정하는 것이 정확성을 보장하는 유일한 방법입니다. 일반적인 참조 용도(아카이브 검색 가능하게 만들기, 분석용 텍스트 추출)의 경우 일반적으로 빠른 즉석 확인으로 충분합니다.

PDF OCR을 사용해 보세요.

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →