광학 문자 인식(OCR)이란 무엇인가?

광학 문자 인식(OCR)은 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷을 변환하는 과정입니다. 예를 들어 양식 또는 영수증을 스캔하는 경우 컴퓨터는 스캔본을 이미지 파일로 저장합니다. 이미지 파일에서는 텍스트 편집기를 사용하여 단어를 편집, 검색하거나 단어 수를 계산할 수 없습니다. 그러나 OCR을 사용하면 이미지를 텍스트 문서로 변환하여 내용을 텍스트 데이터로 저장할 수 있습니다.

OCR이 중요한 이유는 무엇인가요?

대부분 비즈니스 워크플로에는 인쇄 매체에서 정보를 수신하는 과정이 포함됩니다. 종이 양식, 인보이스, 스캔 받은 법률 문서, 인쇄된 계약서는 모두 비즈니스 프로세스에 속합니다. 이러한 대용량의 종이 작업에는 저장 및 관리할 많은 시간과 공간이 필요합니다. 종이 없는 문서 관리가 바람직한 해결 방안이지만 문서를 이미지로 스캔하는 작업은 업무에 상당한 부담이 됩니다. 이 프로세스에는 수작업이 들어가야 하기에 지루하고 느린 작업이 될 수 있습니다.

더욱이 이 문서 콘텐츠를 디지털화하면 텍스트가 감춰진 이미지 파일을 생성하게 됩니다. 이미지 내의 텍스트는 텍스트 문서와 동일한 방식으로 워드 프로세싱 소프트웨어로 처리할 수 없습니다. OCR 기술을 통해 텍스트 이미지를 다른 기업 소프트웨어에서 분석할 수 있는 텍스트 데이터로 변환하여 이런 문제를 해결합니다. 그러면 데이터를 사용하여 분석을 수행하고 운영을 간소화하고 프로세스를 자동화하고 생산성을 높일 수 있습니다.

OCR의 작동 방식

OCR 엔진 또는 OCR 소프트웨어는 다음 단계를 사용하여 작동합니다.

이미지 획득

스캐너를 통해 문서를 읽어들여 이진 데이터로 변환합니다. OCR 소프트웨어는 스캔된 이미지를 분석하고 밝은 부분을 배경으로, 어두운 부분을 텍스트로 분류합니다.

전처리

OCR 소프트웨어는 먼저 이미지를 정리하고 오류를 제거하여 읽을 수 있도록 준비합니다. 정리 기술은 다음과 같습니다.

  • 스캔된 문서를 조금씩 기울기 보정하거나 틸팅하여 스캔 중의 정렬 문제를 해결합니다.
  • 디지털 이미지의 얼룩을 제거하거나 텍스트 이미지의 가장자리를 부드럽게 만듭니다.
  • 이미지 내의 텍스트 상자 및 선을 정리합니다.
  • 다국어 OCR 기술용 스크립트 인식

텍스트 인식

OCR 소프트웨어가 텍스트 인식에 사용하는 OCR 알고리즘 또는 소프트웨어 프로세스의 두 가지 주요 유형은 패턴 매칭 및 특징 추출이라고 합니다.

패턴 매칭

패턴 매칭은 글리프라고 하는 문자 이미지를 격리해서 유사하게 저장된 글리프와 비교하여 작동합니다. 패턴 인식은 저장된 글리프가 입력된 글리프와 비슷한 폰트 및 크기를 가진 경우에만 작동합니다. 이 방법은 잘 알려진 폰트로 입력된 문서의 스캔 이미지에서 잘 작동합니다.

특징 추출

특징 추출은 글리프를 선, 닫힌 고리, 선 방향 및 선 교차와 같은 특징으로 나누거나 분해합니다. 그런 다음 이런 특징을 사용하여 다양하게 저장된 글리프 가운데 가장 정확히 일치하거나 근사치에 가까운 글리프를 찾아냅니다.

후처리

분석이 끝나면 시스템은 추출된 텍스트 데이터를 컴퓨터 파일로 변환합니다. 일부 OCR 시스템은 문서의 스캔 버전 전과 후를 모두 포함하는 주석이 달린 PDF 파일을 생성할 수 있습니다.

OCR 유형에는 무엇이 있나요?

데이터 사이언티스트는 OCR 기술의 사용 및 애플리케이션에 기반해 OCR 기술의 유형을 분류합니다. 다음은 그러한 작업의 몇 가지 예입니다.

단순한 광학 문자 인식(OCR) 소프트웨어

단순한 OCR 엔진은 다양한 폰트 및 텍스트 이미지 패턴을 템플릿으로 저장하여 작업합니다. OCR 소프트웨어는 패턴 매칭 알고리즘을 사용하여 텍스트 이미지와 내부 데이터베이스를 문자별로 비교합니다. 시스템에서 텍스트를 단어별로 매칭하는 경우 광학 단어 인식이라고 합니다. 이 솔루션은 한계가 있습니다. 실제로 폰트와 필기 스타일이 무한하기에 유형 하나 하나 모두 캡처해서 데이터베이스에 저장할 수는 없기 때문입니다.

지능형 문자 인식 소프트웨어

현대 OCR 시스템에서는 지능형 문자 인식(ICR) 기술을 사용하여 인간과 같은 방식으로 텍스트를 읽고, 기계 학습 소프트웨어를 사용하여 인간처럼 행동하도록 기계를 학습시키는 고급 방식을 사용합니다. 신경망이라고 하는 기계 학습 시스템은 이미지를 반복적으로 처리하면서 많은 수준에 걸쳐 텍스트를 분석합니다. 이 시스템은 곡선, 선, 교차점, 고리와 같은 다양한 이미지 속성을 검색하고 이러한 다양한 수준의 분석 결과 모두를 결합하여 최종 결과를 얻습니다. 일반적으로 ICR이 이미지를 한 번에 한 문자씩 처리한다고 해도 그 프로세스는 빠르며 몇 초 안에 결과를 얻을 수 있습니다.

지능형 단어 인식

지능형 단어 인식 시스템은 ICR과 같은 원리로 작동하지만 이미지를 문자로 전처리하지 않고 전체 단어 이미지를 처리합니다.

광학 마크 인식

광학 마크 인식은 문서의 로고, 워터마크 및 기타 텍스트 기호를 식별합니다.

OCR을 사용하면 어떤 이점이 있나요?

OCR 기술의 주요 이점은 다음과 같습니다.

검색 가능한 텍스트

기업에서는 기존 문서 및 새 문서를 모두 검색 가능한 정보 아카이브로 변환할 수 있습니다. 또한 정보 처리를 강화하기 위해 데이터 분석 소프트웨어를 사용하여 텍스트 데이터베이스를 자동으로 처리할 수 있습니다.

운영 효율성

OCR 소프트웨어를 통해 기업 내에서 문서 워크플로 및 디지털 워크플로를 자동으로 통합하여 효율성을 향상시킬 수 있습니다. OCR 소프트웨어로 할 수 있는 작업의 몇 가지 예는 다음과 같습니다.

  • 확인, 검토, 편집 및 분석을 자동화하기 위해 필기로 작성한 양식을 스캔합니다. 이렇게 하면 수작업 문서 처리와 데이터 입력에 드는 시간이 절약됩니다.
  • 데이터베이스에서 용어를 빠르게 검색하여 필요한 문서를 찾을 수 있으므로 박스에 쌓인 파일을 수작업으로 분류할 필요가 없습니다.
  • 필기 노트를 편집 가능한 텍스트 및 문서로 변환합니다.

인공 지능 솔루션

OCR은 기업에서 실행할 수 있는 다른 인공지능 솔루션에 속하는 경우가 많습니다. 예를 들어 OCR은 자율주행 자동차의 번호판 및 도로 표지를 스캔하여 읽거나, 소셜 미디어 게시물에서 브랜드 로고를 감지하거나, 광고 이미지에서 제품 패키징을 식별할 수 있습니다. 이런 인공지능 기술을 통해 기업들이 비용을 줄이고 고객 경험을 개선하는 마케팅 및 운영 결정을 더 잘 내릴 수 있도록 합니다.

OCR은 어디에 사용되나요?

다양한 산업에서 OCR을 사용하는 일반적인 사례 몇 가지는 다음과 같습니다.

뱅킹

뱅킹 산업에서는 OCR을 사용하여 대출 서류, 수표 입금 및 기타 금융 거래에 필요한 서류 작업을 처리하고 확인합니다. 이 확인 작업을 통해 사기를 예방하고 거래 보안을 향상시킬 수 있었습니다. 예를 들어 BlueVine은 중소기업에게 금융 서비스를 제공하는 핀테크 기업입니다. 이 기업은 클라우드 기반의 OCR 서비스인 Amazon Textract를 사용하여 미국의 중소기업이 코로나19 구제 경기부양예산안의 일부인 급여 보호 프로그램(PPP) 대출을 빠르게 이용할 수 있는 제품을 개발했습니다. Amazon Textract는 하루에 수만 장의 PPP 서류를 자동으로 처리 및 분석하므로 BlueVine은 수천 개 기업이 기금을 받을 수 있도록 도움을 주어 그 과정에서 40만 개 이상의 일자리를 살렸습니다.

의료

의료 산업에서는 OCR을 사용하여 치료, 검사, 입원 기록 및 보험료 지불과 같은 환자 기록을 처리합니다. OCR을 통해 워크플로를 간소화하고 병원의 수작업을 줄이면서 기록을 최신으로 유지할 수 있습니다. 예를 들어 nib 그룹에서는 1백만 명이 넘는 호주인에게 의료 보험을 제공하고 있으며, 매일 수천 건의 의료 보험 청구를 받고 있습니다. 이 그룹의 고객은 의료비 청구서를 사진으로 촬영해서 nib 모바일 앱을 통해 제출할 수 있습니다. Amazon Textract는 자동으로 이러한 이미지를 처리하므로 기업에서 훨씬 빨리 청구를 승인할 수 있습니다.

물류

물류 기업은 OCR을 사용하여 패키지 라벨, 인보이스, 영수증 및 기타 문서를 보다 효율적으로 추적합니다. 예를 들어 Foresight Group에서는 Amazon Textract를 사용하여 SAP에서 인보이스 처리를 자동화했습니다. Foresight 직원들은 여러 회계 시스템에 데이터를 입력해야 했기 때문에 이런 기업 문서를 수작업으로 입력하려면 시간도 많이 들고 오류도 많았습니다. Foresight 소프트웨어는 Amazon Textract를 통해 다양한 레이아웃에서 더욱 정확하게 문자를 읽어 비즈니스 효율성을 높일 수 있습니다.

AWS에서는 OCR에 관해 어떤 도움을 줄 수 있나요?

AWS에서는 비즈니스에서 OCR을 실행하도록 도울 수 있는 2개의 서비스를 제공합니다.

Amazon Textract는 OCR을 사용하여 PDF 등의 스캔된 문서에서 텍스트, 필기 및 데이터를 자동으로 추출할 수 있는 ML(기계 학습) 서비스입니다. 다양한 레이아웃 및 형식의 수많은 서류를 고속으로 읽을 수 있습니다. 문서에서 정보를 추출할 때 Amazon Textract는 식별하는 모든 항목의 신뢰도 점수를 반환하므로 결과를 어떻게 사용할지에 대해 합리적인 결정을 내릴 수 있습니다.

Amazon Rekognition은 몇 분 안에 수백만 개의 이미지 및 비디오를 분석하고 인공 지능을 기반으로 사람의 시각적 검토 태스크를 보강합니다. Amazon Rekognition API를 사용하여 이미지 및 비디오 모두에서 텍스트를 추출할 수 있습니다. 도로 표지판, 소셜 미디어 게시글 및 제품 패키징과 같은 이미지 및 비디오에서 왜곡되거나 기울어진 텍스트를 추출합니다.

지금 AWS 계정을 생성하여 AWS에서 OCR을 시작하세요.

AWS 기계 학습 다음 단계

Standard Product Icons (Features) Squid Ink
제품 관련 추가 리소스 확인
기계 학습 서비스에 대해 자세히 확인 
Sign up for a free account
무료 기계 학습 서비스 확인

AWS 프리 티어를 사용하여 무료 기계 학습 서비스에 즉시 액세스하세요.

무료로 시작 
Standard Product Icons (Start Building) Squid Ink
콘솔에서 구축 시작

AWS Management Console에서 Sagemaker를 사용하여 구축을 시작하세요.

가입하기