Tips & Tricks

스캔한 PDF를 검색할 수 없는 4가지 이유(및 해결 방법)

문서를 스캔하고 PDF 뷰어에서 열고 단어를 검색해 봅니다. 또는 텍스트 줄을 선택하려고 하면 커서가 해당 줄을 건너뜁니다. 파일은 PDF처럼 보이지만 사진처럼 작동합니다. 이는 스캔한 문서에서 가장 흔히 발생하는 불만 사항 중 하나이며, 이러한 문제가 발생하는 데는 구체적인 이유가 있습니다. 다음은 그 중 4가지이며 각 문제를 해결하기 위해 수행할 수 있는 작업은 다음과 같습니다.

4 Reasons Your Scanned PDF Is Not Searchable (And How to Fix It)

1. 스캐너가 텍스트 PDF가 아닌 이미지로 저장했습니다

이것이 가장 일반적인 원인입니다. 스캐너가 실제 문서를 캡처할 때 페이지의 사진을 찍습니다. 스캔 소프트웨어가 저장 시 OCR(광학 문자 인식)을 적용하지 않으면 해당 사진을 PDF 컨테이너에 넣기만 합니다. 결과는 일반 PDF와 똑같아 보이지만 실제 텍스트는 포함되어 있지 않습니다. 문자처럼 보이도록 배열된 픽셀만 포함되어 있습니다.

PDF 뷰어에서 Ctrl+A(또는 Mac에서는 Cmd+A)를 눌러 이를 확인할 수 있습니다. 아무것도 선택되지 않거나 전체 페이지가 단일 이미지 블록으로 선택되면 이미지 전용 PDF를 처리하는 것입니다.

해결 방법: OCR PDF 도구를 통해 PDF를 실행하세요. OCR은 이미지를 읽고, 문자를 인식하고, 검색 가능한 실제 텍스트를 파일에 포함시킵니다. www.wukongpdf.com에 있는 WukongPDF의 OCR 도구가 이를 수행합니다. 스캔한 PDF를 업로드하고 OCR 프로세스를 실행한 다음 텍스트를 완전히 검색하고 선택할 수 있는 버전을 다운로드합니다.

WukongPDF

Ocr을 사용해 보세요

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →

2. OCR이 제대로 작동하기에는 스캔 품질이 너무 낮습니다

OCR은 마술이 아닙니다. 픽셀 패턴을 분석하고 이를 알려진 문자 모양과 일치시키는 방식으로 작동합니다. 스캔이 흐리거나, 기울어지거나, 너무 어둡거나, 매우 낮은 해상도로 캡처된 경우 OCR 엔진은 문자를 정확하게 구별하는 데 어려움을 겪습니다. 그 결과 텍스트가 깨졌거나, 문자가 누락되거나, 인식된 텍스트가 페이지 내용과 일치하지 않아 제대로 검색할 수 없는 파일이 생성됩니다.

신뢰할 수 있는 OCR을 위한 최소 해상도는 일반적으로 300DPI입니다. 그 이하에서는 정확도가 눈에 띄게 떨어집니다. 문서가 스캐너에서 약간 기울어져 있는 기울어진 페이지도 문제를 야기합니다. OCR 엔진은 가로 텍스트 줄을 예상하기 때문입니다.

해결 방법: 다시 스캔할 수 있는 경우 문서를 평평하고 똑바로 배치한 상태에서 300DPI 이상으로 다시 스캔하십시오. 재스캔이 옵션이 아닌 경우 일부 OCR 도구에는 인식 전에 스캔의 기울기를 조정하고 향상시킬 수 있는 이미지 전처리가 포함되어 있습니다. 품질이 낮은 스캔을 포기하기 전에 해당 옵션을 찾으십시오.

3. 문서가 OCR 엔진이 지원하지 않는 언어로 되어 있습니다

OCR 엔진은 특정 언어 및 문자 집합에 대해 훈련됩니다. 라틴 스크립트 언어(영어, 프랑스어, 스페인어, 독일어)에 최적화된 엔진은 아랍어, 중국어, 일본어, 한국어 또는 특수 문자가 있는 언어를 처리하는 데 어려움을 겪습니다. 라틴어 스크립트 내에서도 특수 문자, 발음 구별 부호 또는 특이한 글꼴을 많이 사용하는 문서는 인식 문제를 일으킬 수 있습니다.

해결 방법: 문서의 언어를 명시적으로 지원하는 OCR 도구를 사용하세요. 대부분의 최신 OCR PDF 도구에는 지원되는 언어가 나열되어 있습니다. 처리하기 전에 확인하세요. 올바른 언어 설정을 사용한 후에도 정확도가 여전히 좋지 않으면 스캔 품질이 제한 요인일 가능성이 높습니다.

4. PDF에는 텍스트 추출을 차단하는 보안 설정이 있습니다

일부 PDF는 텍스트가 복사되거나 추출되지 않도록 의도적으로 구성되었습니다. 이는 PDF 권한 설정을 통해 수행됩니다. 문서가 잘 열리고 완전히 정상적으로 보일 수 있지만 텍스트 선택 도구가 비활성화되어 있으며 기술적으로 텍스트가 있더라도 검색 결과가 반환되지 않습니다.

이는 스캔한 문서에서는 덜 일반적이며 작성자가 의도적으로 잠근 PDF(특정 법률 문서, 보호된 양식 또는 엄격한 문서 제어 정책이 적용되는 조직의 파일)에서는 더 일반적입니다.

PDF 뷰어의 문서 속성(보통 파일 > 속성 > 보안 아래)으로 이동하여 어떤 권한이 활성화되어 있는지 확인하여 이것이 문제인지 확인할 수 있습니다. 콘텐츠 복사가 허용되지 않는 것으로 나열되어 있다면 그것이 바로 귀하의 대답입니다.

대부분의 스캔된 PDF는 원스텝 수정입니다

대부분의 경우 검색할 수 없는 스캔 PDF에는 OCR만 적용하면 됩니다. 스캔 품질 문제는 두 번째로 흔한 원인이며 해결 가능한 경우도 많습니다. www.wukongpdf.com에서 WukongPDF의 OCR PDF 도구를 통해 파일을 실행하세요. 이는 검색할 수 없는 이미지 PDF에서 실제로 원하는 것을 찾을 수 있는 문서로 이동하는 가장 빠른 방법입니다.

WukongPDF

Ocr을 사용해 보세요

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →