Others

OCR이란 무엇이며 PDF와 어떻게 작동합니까?

OCR은 광학 문자 인식을 의미합니다. 스캔한 문서, 페이지 사진, 이미지 전용 PDF 등을 포함한 이미지에서 텍스트를 읽고, 보이는 내용을 컴퓨터가 처리할 수 있는 실제 텍스트 데이터로 변환하는 기술입니다. 문서를 스캔했는데 왜 텍스트를 검색하거나 복사할 수 없는지 궁금하신 경우 OCR이 해결책입니다.

What Is OCR and How Does It Work With PDFs?

OCR이 해결하는 문제

문서를 스캔하면 스캐너가 페이지 사진을 캡처합니다. 컴퓨터에게 이 사진은 픽셀, 즉 격자 위에 배열된 컬러 점일 뿐입니다. 이미지에서 볼 수 있는 단어는 컴퓨터의 관점에서는 텍스트로 존재하지 않습니다. 검색, 복사, 번역 또는 소리내어 읽을 수 없습니다.

OCR은 이러한 격차를 해소합니다. 이미지의 픽셀 패턴을 분석하여 문자와 숫자에 해당하는 모양을 식별하고 해당 모양을 실제 텍스트 문자로 변환합니다. OCR PDF 처리 후 문서에는 원본 이미지(여전히 동일하게 보임)와 컴퓨터가 읽고 검색하고 처리할 수 있는 숨겨진 텍스트 레이어라는 두 개의 레이어가 있습니다.

WukongPDF

PDF OCR을 사용해 보세요

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →

OCR의 실제 작동 방식

최신 OCR 시스템은 수백만 개의 문서 이미지에 대해 훈련된 기계 학습 모델을 사용합니다. 페이지를 처리할 때 시스템은 여러 단계를 거칩니다.

  • 이미지 전처리: 이미지가 정리됩니다. 기울어진 경우 똑바르게 되고 대비가 향상되며 노이즈가 감소합니다. 이미지가 깨끗할수록 인식이 더 정확해집니다.
  • 레이아웃 분석: 시스템은 텍스트 블록이 있는 위치, 이미지가 있는 위치, 읽기 순서, 열 경계, 표 셀 등 페이지의 구조를 식별합니다.
  • 문자 인식: 모델은 각 문자 모양을 분석하고 가장 가능성이 높은 문자, 숫자 또는 기호를 할당합니다. 문맥을 고려합니다 — "tHe"; 'the'일 가능성이 더 높습니다. — 정확성을 향상시키기 위해.
  • 텍스트 레이어 생성: 인식된 문자는 단어와 문장으로 결합되어 원본 이미지에 맞춰 배치되며 검색 가능한 텍스트 레이어로 PDF에 포함됩니다.

OCR 정확도에 영향을 미치는 요인

OCR 정확도는 소스 이미지의 품질과 인식되는 콘텐츠에 따라 크게 달라집니다.

  • 스캔 해상도: DPI가 높을수록 문자 가장자리가 더 깨끗해지고 인식이 향상됩니다. 안정적인 OCR을 위해서는 300DPI가 권장되는 최소값입니다. 150DPI 미만의 이미지는 종종 심각한 오류를 생성합니다.
  • 글꼴 유형: 일반적인 서체(Times, Arial, Helvetica)의 표준 인쇄 글꼴은 높은 정확도로 인식됩니다. 장식적인 글꼴, 특이한 서체, 매우 작은 텍스트는 더 많은 오류를 발생시킵니다.
  • 문서 상태: 노란색 종이, 잉크 바램, 얼룩, 기울어진 스캔 및 그림자는 모두 인식 품질을 저하시킵니다. 깨끗하고 직선적이며 대비가 높은 스캔이 최상의 결과를 가져옵니다.
  • 언어: 일반 언어(영어, 스페인어, 프랑스어, 독일어, 중국어, 일본어)는 광범위한 학습 데이터와 높은 정확도를 갖추고 있습니다. 덜 일반적인 언어와 스크립트에는 더 많은 오류가 있을 수 있습니다.
  • 필기: 인쇄된 텍스트의 OCR은 매우 정확합니다. 필기 인식은 다르고 어려운 문제입니다. 정확성은 필기 스타일과 사용된 특정 모델에 따라 크게 달라집니다.

결과는 어떻게 되나요

OCR 후 PDF는 이전과 동일하게 보입니다. 즉, 원본 스캔 이미지는 변경되지 않습니다. 그 차이는 눈에는 보이지 않지만 기능적으로는 중요합니다. 이제 문서에는 이미지와 정렬된 숨겨진 텍스트 레이어가 있습니다. 단어를 검색하면 뷰어가 텍스트 레이어에서 해당 단어를 찾아 이미지에서 강조 표시합니다. 텍스트를 선택하고 복사하면 텍스트 레이어에서 복사됩니다. 화면 판독기는 콘텐츠를 알릴 때 텍스트 레이어를 읽습니다.

이미지 레이어와 텍스트 레이어는 별개입니다. OCR은 어떤 방식으로든 원본 스캔을 변경하지 않습니다. OCR에 오류가 발생한 경우 이미지에는 여전히 올바른 원본 텍스트가 표시됩니다. 숨겨진 텍스트 레이어에만 실수가 포함되어 있습니다.

PDF에 OCR을 적용하는 방법

www.wukongpdf.com에 있는 WukongPDF의 OCR PDF 도구는 데스크톱 소프트웨어 없이 이 작업을 처리합니다. 스캔한 PDF를 업로드하고, 더 나은 정확성을 위해 문서 언어를 선택하고, 처리하고, 검색 가능한 결과를 다운로드하세요. 표준 문서의 경우 일반적으로 작업에 10~30초가 소요됩니다.

Adobe Acrobat Pro에는 인식 품질을 제어하고 여러 페이지로 구성된 문서를 처리하기 위한 추가 옵션과 함께 OCR 기능(도구 > 스캔 향상 > 텍스트 인식)이 내장되어 있습니다. 대량의 스캔 문서를 처리하는 조직의 경우 Acrobat의 일괄 OCR 기능은 파일의 전체 폴더를 자동으로 처리합니다.

WukongPDF

PDF OCR을 사용해 보세요

설치가 필요하지 않습니다. 브라우저에서 직접 작동합니다.

시작하기 →