PDF를 검색 가능하게 만드는 방법

검색 가능한 PDF는 텍스트가 이미지가 아닌 파일에 실제 문자로 저장되는 것입니다. Ctrl+F를 누르고 단어를 입력하면 시청자가 해당 단어를 찾을 수 있습니다. 텍스트를 선택하고 복사하면 실제 문자가 복사됩니다. 디지털로 생성된 PDF의 경우 자동으로 수행됩니다. 스캔한 PDF의 경우 텍스트 레이어를 추가하려면 OCR이 필요합니다.

PDF이 이미 검색 가능한지 확인하는 방법

PDF를 열고 클릭하고 드래그하여 단어를 선택해 보세요. 개별 단어가 강조 표시되어 복사할 수 있으면 PDF에 이미 텍스트 레이어가 있으므로 검색이 가능합니다. 클릭 시 특정 단어를 선택하는 것이 아니라 전체 영역에 직사각형 선택을 그리는 경우 해당 페이지는 텍스트 레이어가 없는 이미지로 저장됩니다. 그럴 때 OCR이 필요합니다.

PDF OCR을 사용해 보세요.

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →

OCR을 실행하여 텍스트 레이어 추가

WukongPDF의 OCR PDF 도구는 브라우저에서 스캔한 PDF을 처리하고 텍스트가 인식되어 원본 스캔 이미지와 함께 포함된 버전을 반환합니다. 페이지는 동일해 보이지만(동일한 시각적 모양, 동일한 스캔 품질) 이제 Ctrl+F를 누르면 단어가 검색되고 텍스트를 선택하고 복사할 수 있습니다. 스캔한 PDF를 업로드하고 OCR을 실행한 후 검색 가능한 버전을 다운로드하세요.

Adobe Acrobat Pro에는 도구 → 스캔 및 스캔 아래에 강력한 OCR 엔진도 있습니다. OCR → 텍스트를 인식합니다. 색이 바랜 텍스트, 특이한 글꼴, 비라틴어 스크립트 등 어려운 스캔에 대한 정확도는 일반적으로 브라우저 도구보다 우수하지만 표준 인쇄 텍스트의 경우 차이는 작습니다. 정확성이 중요한 대량의 문서를 처리하는 경우 Acrobat의 OCR은 투자할 가치가 있습니다.

OCR 정확성 및 언어 지원

OCR 정확도는 스캔 품질에 크게 좌우됩니다. 전문적으로 인쇄된 문서를 200DPI 이상으로 깨끗하고 고대비로 스캔하면 일반적으로 98-99%의 문자 정확도로 변환됩니다. 이는 실질적으로 오류가 없습니다. 빛이 바랜 복사본, 비스듬히 촬영한 스캔 또는 손으로 쓴 주석이 있는 문서에는 수동 수정이 필요한 오류가 더 많습니다.

대부분의 OCR 도구는 문서 언어를 자동으로 감지하고 언어별 모델을 사용하여 정확성을 높입니다. 문서가 지속적으로 특정 문자를 잘못 인식하는 경우 언어가 올바르게 감지되고 있는지 확인하십시오. OCR 설정에서 올바른 언어를 강제로 적용하면 특히 악센트가 있는 문자나 비라틴어 스크립트가 있는 문서의 경우 눈에 띄는 차이가 발생하는 경우가 많습니다.

장기 보관을 위한 PDF 검색 가능 만들기

종이 아카이브를 디지털화하는 조직에서는 검색 가능성, 즉 몇 년 후 수천 개의 파일에서 특정 문서나 조항을 찾을 수 있는 능력을 주요 목표로 삼는 경우가 많습니다. 이 사용 사례의 경우 OCR 출력은 장기 보존을 위해 설계된 형식으로 저장되어야 합니다. PDF/A-3은 페이지 이미지와 함께 포함된 텍스트 레이어를 지원하며 검색 가능한 문서 아카이브를 위해 특별히 설계된 아카이브 표준입니다. OCR을 실행한 다음 보관 설정을 사용하여 PDF 압축으로 변환하면 검색 가능성과 장기적인 형식 안정성이 모두 보장됩니다.

불완전한 OCR이라도 보관 목적으로는 OCR이 없는 것보다 훨씬 낫습니다. 문자 정확도가 95%인 문서는 여전히 검색 가능합니다. 일부 단어의 몇 글자가 잘못 읽힌 경우에도 대부분의 송장을 찾을 수 있습니다. 완벽한 OCR이 이상적입니다. 기능적 OCR은 여전히 텍스트 레이어가 전혀 없는 스캔보다 훨씬 더 유용합니다.

PDF OCR을 사용해 보세요.

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →