Others

내 PDF 내부의 텍스트를 검색할 수 없는 이유는 무엇입니까?

PDF에서 Ctrl+F를 누르고 아무것도 찾지 못하는 경우(또는 검색창을 찾는 것은 작동하지만 페이지에서 명확하게 볼 수 있는 단어에 대해서도 결과가 0인 경우)는 텍스트 레이어 문제입니다. PDF에는 검색 가능한 텍스트가 포함되어 있지 않습니다. 즉, 현재 보고 있는 내용은 실제 문자가 아닌 이미지입니다. 수정 사항은 OCR이며 대부분의 사람들이 예상하는 것보다 빠릅니다.

Why Can't I Search for Text Inside My PDF?

일부 PDF에 검색 가능한 텍스트가 없는 이유

PDF에는 근본적으로 다른 두 가지 유형의 콘텐츠가 포함될 수 있습니다. 첫 번째는 검색, 선택 및 복사가 가능한 텍스트 데이터로 저장된 문자인 실제 텍스트입니다. 두 번째는 이미지 데이터입니다. 문자가 픽셀일 뿐이고 화면의 실제 텍스트와 시각적으로 구별할 수 없지만 구조적으로는 완전히 다른 페이지의 사진입니다.

스캔한 문서는 항상 이미지 기반이므로 스캐너가 페이지를 촬영합니다. 그러나 디지털로 생성된 문서라도 콘텐츠를 병합하여 변환했거나, 텍스트 보존 없이 특정 디자인 소프트웨어에서 내보내거나, 인쇄-이미지 워크플로를 통해 저장한 경우에는 이미지 전용 문서가 될 수 있습니다. 시각적 결과는 동일해 보입니다. 기본 데이터 구조만 다릅니다.

WukongPDF

PDF OCR을 사용해 보세요.

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →

PDF에 텍스트 레이어가 있는지 확인하는 방법

PDF를 열고 클릭하고 드래그하여 단어 하나를 선택해 보세요. 개별 단어를 강조 표시할 수 있고 선택한 텍스트가 파란색(또는 뷰어의 선택 색상)으로 강조 표시되면 PDF에 실제 텍스트 레이어가 있으므로 검색이 가능해야 합니다. 클릭하고 끌면 특정 단어가 강조 표시되지 않고 페이지 이미지 위에 직사각형 선택 상자가 생성되는 경우 문서는 이미지 기반입니다.

두 번째 테스트: Ctrl+A를 눌러 모두 선택하세요. 텍스트 기반 PDF에서는 문서 전체에서 텍스트가 강조 표시됩니다. 이미지 기반 PDF에서는 시각적으로 아무것도 선택되지 않거나 전체 페이지가 단일 이미지 블록으로 선택됩니다.

수정 사항: OCR 실행

OCR(광학 문자 인식)은 이미지를 읽고 보이는 내용을 텍스트 문자로 변환하여 PDF에 텍스트 레이어를 추가합니다. OCR 후에는 문서를 검색할 수 있습니다. Ctrl+F는 단어를 찾고, 텍스트를 선택하여 복사할 수 있으며, 화면 판독기가 내용을 해석할 수 있습니다.

WukongPDF의 OCR PDF 도구가 브라우저에서 이를 처리합니다. 이미지 기반 PDF를 업로드하고 OCR을 실행한 후 검색 가능한 버전을 다운로드하세요. 문서의 시각적 모양은 변경되지 않습니다. 즉, 페이지가 동일해 보이지만 이제 기본 데이터에는 검색 및 선택 도구를 사용할 수 있는 텍스트 레이어가 포함됩니다.

OCR 정확도는 원본 스캔 품질에 따라 달라집니다. 98-99% 정확도로 200+ DPI OCR로 흰색 종이에 선명한 고대비 검정색 텍스트를 표시합니다. 색이 바랜 잉크, 저해상도 스캔, 특이한 글꼴 또는 필기로 인해 더 많은 오류가 발생합니다. 대부분의 비즈니스 문서에 대해 OCR 결과는 즉시 사용할 수 있을 만큼 깨끗합니다.

기존 텍스트에도 불구하고 아무것도 검색되지 않는 경우

덜 일반적인 상황: PDF에는 실제 텍스트 레이어가 있고 텍스트 선택이 작동하지만 검색 기능은 여전히 ​​결과를 반환하지 않습니다. 이는 일반적으로 PDF 뷰어의 검색 색인이 아직 구축되지 않았음을 의미합니다. 일부 시청자는 연 후 백그라운드에서 색인을 생성합니다. 몇 초 정도 기다렸다가 다시 시도하세요. 문제가 지속되면 더 간단한 용어를 사용하여 다른 검색 쿼리를 시도하거나 다른 뷰어에서 파일을 엽니다.

또 다른 원인: 텍스트 레이어가 존재하지만 글꼴 인코딩 문제로 인해 잘못된 문자가 포함되어 있습니다. 문장을 복사하여 다른 곳에 붙여넣으려고 할 때 임의의 기호로 나타나는 경우 텍스트 인코딩이 손상된 것입니다. OCR은 이 문제도 해결합니다. 시각적 콘텐츠를 읽고 손상된 인코딩을 올바른 텍스트로 대체하여 처음부터 텍스트 레이어를 다시 작성합니다.

미래의 PDF를 항상 검색 가능하게 만들기

스캔한 문서의 경우 스캔 직후 OCR을 실행하면 스캔한 모든 PDF을(를) 제출하는 순간부터 검색할 수 있습니다. 일부 스캐너 소프트웨어에는 OCR이 내장되어 있으며 이를 자동으로 적용합니다. 가능하다면 이 설정을 활성화하세요. OCR이 내장되지 않은 스캐너의 경우 파일링 전 빠른 스캔 후 OCR 통과를 통해 문서당 몇 초를 추가하고 몇 주 또는 몇 달 후에 무언가를 찾아야 할 때 상당한 시간을 절약할 수 있습니다.

디지털 방식으로 생성된 문서의 경우 이미지로 인쇄하는 대신 적절한 내보내기를 사용하고 있는지 확인하세요. Word, Google Docs 또는 기타 전문 응용 프로그램에서 직접 내보내면 텍스트 레이어가 자동으로 유지됩니다. 검색 가능성 문제는 내보내기 프로세스에서 내용을 래스터화할 때만 나타납니다. 이는 일반적으로 특정 드라이버를 사용하여 PDF로 인쇄하거나 문서를 명시적으로 병합하는 내보내기 옵션에서 발생합니다.

WukongPDF

PDF OCR을 사용해 보세요.

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →