메인 콘텐츠로 건너뛰기

광학 문자 인식(OCR)이란 무엇인가요?

광학 문자 인식(OCR)은 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷으로 변환하는 과정입니다. 예를 들어 양식 또는 영수증을 스캔하는 경우 컴퓨터는 스캔본을 이미지 파일로 저장합니다. 이미지 파일에서는 텍스트 편집기를 사용하여 단어를 편집, 검색하거나 단어 수를 계산할 수 없습니다. 그러나 OCR을 사용하면 이미지를 텍스트 문서로 변환하여 내용을 텍스트 데이터로 저장할 수 있습니다.

OCR이 중요한 이유는 무엇인가요?

대부분 비즈니스 워크플로에는 인쇄 매체로부터 정보를 수신하는 과정이 포함됩니다. 종이 양식, 인보이스, 스캔 받은 법률 문서, 인쇄된 계약서는 모두 비즈니스 프로세스에 속합니다. 이러한 대용량의 종이 작업에는 저장 및 관리할 많은 시간과 공간이 필요합니다. 종이 없는 문서 관리가 바람직한 해결 방안이지만 문서를 이미지로 스캔하는 작업은 업무에 상당한 부담이 됩니다. 이 프로세스에는 수작업이 들어가야 하므로, 지루하고 느린 작업이 될 수 있습니다.

더욱이, 이러한 문서 내용을 디지털화하면 텍스트가 내부에 숨겨진 이미지 파일을 생성하게 됩니다. 이미지 내의 텍스트는 텍스트 문서와 동일한 방식으로 워드 프로세싱 소프트웨어가 처리할 수 없습니다. OCR 기술을 통해 텍스트 이미지를 다른 기업 소프트웨어에서 분석할 수 있는 텍스트 데이터로 변환하여 이런 문제를 해결합니다. 그러면 데이터를 사용하여 분석을 수행하고 운영을 간소화하고 프로세스를 자동화하고 생산성을 높일 수 있습니다.

OCR을 사용하면 어떤 이점이 있나요?

OCR 기술의 주요 이점은 다음과 같습니다.

검색 가능한 텍스트

기업에서는 기존 문서 및 새 문서를 모두 검색 가능한 정보 아카이브로 변환할 수 있습니다. 또한 정보 처리를 강화하기 위해 데이터 분석 소프트웨어를 사용하여 텍스트 데이터베이스를 자동으로 처리할 수 있습니다.

운영 효율성

OCR 소프트웨어를 통해 기업 내에서 문서 워크플로 및 디지털 워크플로를 자동으로 통합하여 효율성을 향상시킬 수 있습니다. OCR 소프트웨어로 할 수 있는 작업의 몇 가지 예는 다음과 같습니다.

  • 확인, 검토, 편집 및 분석을 자동화하기 위해 필기로 작성한 양식을 스캔합니다. 이렇게 하면 수작업 문서 처리와 데이터 입력에 드는 시간이 절약됩니다.
  • 데이터베이스에서 용어를 빠르게 검색하여 필요한 문서를 찾을 수 있으므로 박스에 쌓인 파일을 수작업으로 분류할 필요가 없습니다.
  • 필기 노트를 편집 가능한 텍스트 및 문서로 변환합니다.
     

인공 지능 솔루션

OCR은 기업에서 실행할 수 있는 다른 인공지능 솔루션에 속하는 경우가 많습니다. 예를 들어 OCR은 자율주행 자동차의 번호판 및 도로 표지를 스캔하여 읽거나, 소셜 미디어 게시물에서 브랜드 로고를 감지하거나, 광고 이미지에서 제품 패키징을 식별할 수 있습니다. 이런 인공지능 기술을 통해 기업들이 비용을 줄이고 고객 경험을 개선하는 마케팅 및 운영 결정을 더 잘 내릴 수 있도록 합니다.

OCR의 역사와 발전 과정은 어떻게 되나요?

OCR 분야에서 최초로 개발된 것으로 알려진 것은 1920년대 Emanuel Goldberg의 기계인데, 이 기계는 문자를 판독하여 전신 코드로 변환할 수 있었습니다. 이는 기계 기반 판독이라는 개념의 토대를 마련했습니다.

초기 도입

1950년대에 OCR은 상용 기술로 구체화되기 시작했습니다. RCA와 같은 회사는 은행 및 우편 업무용으로 특정 글꼴을 판독할 수 있는 시스템을 개발했습니다. 이러한 시스템은 수표 처리와 우편물 분류를 자동화하는 데 사용되었는데, 그 용도는 한정적이지만 영향력은 컸습니다.

1960년대에는 OCR-A 및 OCR-B 글꼴이 사람과 기계가 모두 쉽게 읽을 수 있도록 설계되었습니다. 해당 글꼴을 도입한 덕분에, 금융 및 정부 분야에서 OCR 기술의 일관성이 높아질 수 있었습니다.

확장

스캐너와 소프트웨어 알고리즘의 개선은 OCR을 일상적인 비즈니스 용도로 실용화하는 데 도움을 주었습니다. 초기 프로그램은 인쇄된 종이 문서를 스캔하여 편집 가능한 텍스트로 변환할 수 있었으나, 정확도는 제한적이었습니다.

2000년대에 신경망과 초기 기계 학습 기술로 인해, OCR은 고정된 글꼴과 레이아웃을 넘어설 수 있게 되었습니다. 이제 최신 시스템은 손 글씨 텍스트, 저품질 스캔본 및 복잡한 레이아웃을 훨씬 더 높은 정확도로 해석할 수 있게 되었습니다.

현재

오늘날 OCR은 틈새 도구에서 디지털 트랜스포메이션의 기반 기술로 진화했습니다. OCR은 모바일 앱부터 엔터프라이즈 자동화 플랫폼에 이르기까지 모든 것에 내장되어 있습니다. 그리고 여러 언어를 지원하며, 컨텍스트 인식 방식으로 실시간 이미지 캡처를 처리합니다. 그래서 이제는 지능형 자동화의 필수 요소입니다.

문서 처리의 다양한 OCR 사용 사례에는 어떤 것이 있나요?

OCR은 기업 문서 처리 워크플로의 핵심 요소입니다. 다음 사용 사례를 살펴보겠습니다.

문서 아카이브의 지능형 검색

OCR 기술을 사용하면, 이미지 기반 문서와 PDF 문서에서 텍스트를 추출하여 검색 가능한 디지털 아카이브를 만들 수 있습니다. 일단 인식된 텍스트는 인덱싱을 거치고 AI 기반 검색 시스템에서 사용될 수 있습니다. 사용자는 추가적인 문서 분류 없이도, 대량의 파일 볼륨에서 관련 파일을 빠르고 정확하게 검색할 수 있습니다. 예를 들어, 특정 고객 이름을 검색하면 원래는 서류로 제출되었던 모든 지급 지시서, 청구서 및 양식이 반환됩니다.

기업은 기존 및 신규 인쇄 문서를 완전히 검색 가능한 지식 아카이브로 변환할 수 있습니다. 또한 정보 처리를 강화하기 위해 데이터 분석 소프트웨어를 사용하여 텍스트 데이터베이스를 자동으로 처리할 수 있습니다.

자연어 처리

OCR은 단어, 줄 또는 테이블 셀 수준에서 텍스트를 인식 및 추출하므로, 후속 자연어 처리(NLP) 작업(예: 문서 분류, 요약, 감정 분석, 주제 모델링, 개체 인식 등)을 위해 콘텐츠를 준비하는 방식을 더 정밀하게 제어할 수 있습니다. 예를 들어, 요약 작업에는 단락 단위의 텍스트 추출이 필요하지만, 개체 인식에는 JSON 파일처럼 키-값 쌍 형태의 텍스트 추출이 더 적합할 수 있습니다.

데이터 표준화

문서 워크플로에는 다양한 형식과 산업 분야의 비정형 데이터가 포함되는 경우가 많습니다. OCR은 다양한 문서 유형(예: 재무제표, 진료 기록, 기술 보고서 등)에서 텍스트와 표를 추출함으로써 이러한 데이터를 표준화하는 데 도움을 줍니다. 여러 시스템 전반에서 더 빠른 처리 속도와 더 일관된 데이터 처리를 경험하게 됩니다.

양식 처리 자동화

OCR 기술은 양식 처리를 자동화하는 데 핵심 역할을 합니다. 이 기술은 다양한 양식 유형에서 필드를 식별하고 구조화된 정보를 추출할 수 있으므로, 기업은 수동 입력 없이 이러한 데이터를 데이터베이스에 직접 통합할 수 있습니다.

애플리케이션 기능

OCR 기능은 비즈니스 애플리케이션에 직접 내장될 수 있으므로, 사용자가 직접 실시간 텍스트 추출을 수행할 수 있습니다. 이렇게 하면, 데이터가 소스에서 제대로 수집되므로 분석 워크로드가 줄어듭니다.

OCR은 다양한 산업 분야에서 어떻게 사용되나요?

다음은 다양한 산업 분야에서 흔히 볼 수 있는 몇 가지 OCR 사용 사례입니다.

뱅킹

뱅킹 산업에서는 OCR을 사용하여 대출 서류, 수표 입금 및 기타 금융 거래에 필요한 서류 작업을 처리하고 확인합니다. 이 확인 작업을 통해 사기를 예방하고 거래 보안을 향상시킬 수 있었습니다. 예를 들어, BlueVine은 중소기업에 자금을 조달하는 금융 기술 기업입니다. 이 기업은 클라우드 기반의 OCR 서비스인 Amazon Textract를 사용하여, 미국의 중소기업이 코로나19 구제 경기 부양책의 일환으로 급여 보호 프로그램(PPP) 대출을 빠르게 이용할 수 있는 제품을 개발했습니다. Amazon Textract로 매일 수만 건의 PPP 신청서를 자동으로 처리 및 분석하여 BlueVine은 수천 개의 기업이 자금을 지원받도록 도울 수 있었고 그 과정에서 40만 개 이상의 일자리를 지켰습니다.

의료

의료 산업에서는 OCR을 사용하여 치료, 검사, 입원 기록 및 보험료 지불과 같은 환자 기록을 처리합니다. OCR을 통해 워크플로를 간소화하고 병원의 수작업을 줄이면서 기록을 최신으로 유지할 수 있습니다. 예를 들어 nib 그룹에서는 1백만 명이 넘는 호주인에게 의료 보험을 제공하고 있으며, 매일 수천 건의 의료 보험 청구를 받고 있습니다. 이 그룹의 고객은 의료비 청구서를 사진으로 촬영해서 nib 모바일 앱을 통해 제출할 수 있습니다. Amazon Textract는 자동으로 이러한 이미지를 처리하므로 기업에서 훨씬 빨리 청구를 승인할 수 있습니다.

물류

물류 기업은 OCR을 사용하여 패키지 라벨, 인보이스, 영수증 및 기타 문서를 보다 효율적으로 추적합니다. 예를 들어 Foresight Group에서는 Amazon Textract를 사용하여 SAP에서 인보이스 처리를 자동화했습니다. Foresight 직원들은 여러 회계 시스템에 데이터를 입력해야 했기 때문에 이런 기업 문서를 수작업으로 입력하려면 시간도 많이 들고 오류도 많았습니다. Amazon Textract를 통해 Foresight 소프트웨어는 다양한 레이아웃에서 문자를 더 정확하게 인식할 수 있으므로, 비즈니스 효율성이 향상됩니다.

OCR은 어떻게 작동할까요?

OCR 엔진 또는 OCR 소프트웨어는 다음 단계를 사용하여 작동합니다.

이미지 획득

스캐너를 통해 문서를 읽어들여 이진 데이터로 변환합니다. OCR 소프트웨어는 스캔된 이미지를 분석하고 밝은 부분을 배경으로, 어두운 부분을 텍스트로 분류합니다.

전처리

OCR 소프트웨어는 먼저 이미지를 정리하고 오류를 제거하여 읽을 수 있도록 준비합니다. 정리 기술은 다음과 같습니다.

  • 스캔 중에 발생한 정렬 문제를 해결하기 위해, 스캔된 문서를 약간 회전시키거나 기울입니다.
  • 디지털 이미지에서 얼룩을 제거하거나, 텍스트 이미지의 가장자리를 부드럽게 만듭니다.
  • 이미지 내의 텍스트 상자 및 선을 정리합니다.
  • 다국어 OCR 기술용 스크립트 인식

텍스트 인식

OCR 소프트웨어가 텍스트 인식에 사용하는 OCR 알고리즘 또는 소프트웨어 프로세스의 2가지 주요 유형은 패턴 매칭 및 특징 추출이라고 합니다.

패턴 매칭

패턴 매칭은 글리프라고 하는 문자 이미지를 분리한 다음, 유사하게 저장된 글리프와 비교함으로써 작동합니다. 패턴 인식은 저장된 글리프가 입력된 글리프와 유사한 글꼴 및 크기를 가진 경우에만 작동합니다. 이 방법은 잘 알려진 글꼴로 입력된 문서의 스캔 이미지에서 잘 작동합니다.

특징 추출

특징 추출은 글리프를 선, 닫힌 고리, 선 방향 및 선 교차와 같은 특징으로 나누거나 분해합니다. 그런 다음 이런 특징을 사용하여 다양하게 저장된 글리프 가운데 가장 정확히 일치하거나 근사치에 가까운 글리프를 찾아냅니다.

후처리

분석 후에 OCR 시스템은 추출된 텍스트 데이터를 기계가 읽을 수 있는 텍스트 문서로 변환합니다. 일부 OCR 시스템은 문서의 원본과 스캔 버전을 모두 포함하는, 주석이 달린 PDF 파일을 생성할 수 있습니다.

OCR 유형에는 어떤 것이 있나요?

데이터 사이언티스트는 OCR 기술의 용도와 적용 분야에 따라 다양한 유형을 분류합니다. 다음은 그러한 작업의 몇 가지 예입니다.

단순한 광학 문자 인식(OCR) 소프트웨어

단순한 OCR 엔진은 다양한 글꼴과 텍스트 이미지 패턴을 템플릿으로 저장하여 작동합니다. OCR 소프트웨어는 패턴 매칭 알고리즘을 사용하여, 텍스트 이미지를 문자별로 내부 데이터베이스와 비교합니다. 시스템에서 텍스트를 단어별로 매칭하는 경우 광학 단어 인식이라고 합니다. 이 솔루션은 한계가 있습니다. 실제로 폰트와 필기 스타일이 무한하기에 유형 하나 하나 모두 캡처해서 데이터베이스에 저장할 수는 없기 때문입니다.

지능형 문자 인식 소프트웨어

현대 OCR 시스템에서는 지능형 문자 인식(ICR) 기술을 사용하여 인간과 같은 방식으로 텍스트를 읽고, 기계 학습 소프트웨어를 사용하여 인간처럼 행동하도록 기계를 학습시키는 고급 방식을 사용합니다. 신경망이라고 하는 기계 학습 시스템은 이미지를 반복적으로 처리하면서 많은 수준에 걸쳐 텍스트를 분석합니다. 이 시스템은 곡선, 선, 교차점, 고리와 같은 다양한 이미지 속성을 검색하고 이러한 다양한 수준의 분석 결과 모두를 결합하여 최종 결과를 얻습니다. 일반적으로 ICR이 이미지를 한 번에 한 문자씩 처리한다고 해도 그 프로세스는 빠르며 몇 초 안에 결과를 얻을 수 있습니다.

지능형 단어 인식

지능형 단어 인식 시스템은 ICR과 같은 원리로 작동하지만, 이미지를 문자 단위로 전처리하지 않고 전체 단어의 이미지를 처리합니다.

광학 마크 인식

광학 마크 인식은 문서의 로고, 워터마크 및 기타 텍스트 기호를 식별합니다.

AWS는 OCR을 어떻게 지원할 수 있나요?

AWS는 비즈니스에서 OCR을 구현하는 데 도움을 줄 수 있는 다음 2가지 서비스를 제공합니다.

Amazon Textract는 PDF와 같은 스캔 문서에서 텍스트, 손 글씨 및 데이터를 자동 추출하기 위해 OCR을 사용하는 기계 학습(ML) 서비스입니다. 다양한 레이아웃 및 형식의 수많은 서류를 고속으로 읽을 수 있습니다. 문서에서 정보를 추출할 때 Amazon Textract는 식별하는 모든 항목의 신뢰도 점수를 반환하므로 결과를 어떻게 사용할지에 대해 합리적인 결정을 내릴 수 있습니다.

Amazon Rekognition은 수백만 개의 이미지와 동영상을 몇 분 안에 분석하고, 인공 지능을 통해 인간의 시각적 검토 작업을 보완할 수 있습니다. Amazon Rekognition API를 사용하여 이미지 및 비디오 모두에서 텍스트를 추출할 수 있습니다. 도로 표지판, 소셜 미디어 게시글 및 제품 패키징과 같은 이미지 및 비디오에서 왜곡되거나 기울어진 텍스트를 추출합니다.

지금 바로 AWS 계정을 생성하여 AWS에서 OCR을 시작하세요.