Amazon Web Services 한국 블로그

Amazon Textract로 주택 담보 대출 데이터 분류 및 추출 기능 출시

주택 담보 대출 신청서는 미국의 경우 적어도 약 500페이지 이상의 다양한 문서로 구성됩니다. 신청서를 검토하려면 이러한 모든 문서를 분류하고 각 양식의 데이터를 추출해야 합니다. 이것이 쉬운 일은 아닙니다. 각 문서의 데이터 구조가 다를 뿐만 아니라 동일한 데이터 요소의 이름이 문서마다 다를 수 있습니다(예: SSN, 주민등록번호 또는 세금 ID). 이 세 가지는 모두 동일한 데이터를 나타냅니다.

현재 Amazon Textract에서 주택 담보 대출 신청 패키지에 포함된 문서를 분석 및 분류하고 여기에 포함된 데이터를 추출하는 새로운 대출 분석 API를 사용할 수 있습니다. 이 새로운 API는 업계 주요 대출 기관이 대출 신청을 더 빠르게 처리하고 오류를 줄여 최종 고객 경험을 개선하고 운영 비용을 절감할 수 있도록 지원해 달라는 요청에 따라 만들어졌습니다.

지금까지는 주택 담보 대출 신청 패키지에서 데이터를 분류하고 추출하는 작업이 매우 노동 집약적이었으나, 일부 대출 기관은 Amazon Textract와 같은 기술을 이용하는 하이브리드 접근 방식을 사용해 왔습니다. 그러나 고객들은 직원들이 더 중요한 작업에 집중할 수 있도록 자동화 작업을 가속화하고 사람의 실수를 줄이는 훨씬 더 강력한 워크플로 자동화가 필요하다고 말했습니다.

새로운 API는 추가적인 부가가치 서비스도 제공합니다. 서명이 있는 문서와 없는 문서에 대해 서명 감지를 수행할 수 있습니다. 또한 주택 담보 대출 신청 패키지의 문서 요약 결과를 제공하고 일반적으로 사용되는 은행 거래 내역서 및 1003 양식과 같은 엄선된 중요한 문서를 식별합니다. 새로운 워크플로는 기계 학습(ML) 모델을 기반으로 동작합니다. 주택 담보 대출 신청 패키지가 업로드되면, 워크플로는 패키지의 문서를 분류한 후 분류에 따라 데이터 추출에 적합한 ML 모델로 라우팅합니다.

새로운 대출 분석 API 테스트 구동
새 API는 대출 기관이 비즈니스 프로세스 워크플로와 애플리케이션에 통합할 수 있도록 고안되었지만, 누구나 Amazon Textract 콘솔을 이용하여 실제로 사용해 볼 수 있습니다. 이를 통해 API가 문서를 분류하고 문서에 포함된 데이터 요소를 추출하는 방법을 확인할 수 있습니다. 기계 학습과 인공 지능 적용에 관심이 있는 사람이라면, 주택 담보 대출 신청 패키지를 처리하지 않더라도 이 API에 흥미를 느낄 수 있을 것입니다.

먼저, Amazon Textract 콘솔을 열고 탐색 패널에서 Analyze Lending(대출 분석)을 확장한 다음 Demo(데모)를 선택합니다. 데모 콘솔은 일련의 합성 테스트 파일을 즉시 분석하여 아래와 같은 결과를 출력합니다(Reset demo(데모 재설정) 버튼을 클릭하여 언제든지 데모를 다시 시작할 수 있음). 패키지의 각 문서에 대한 분석 결과 요약과 문서 목록이 표시됩니다. 데모 콘솔에는 특히 문서와 관련된 용어 요약이 포함된 편리한 도움말 패널도 있습니다.

주택 담보 대출 문서 분석 요약, 캐러셀 및 용어 도움말 텍스트

목록에서 한 문서에 서명이 감지되었음을 나타내는 서명 배지가 있는 것을 볼 수 있지만 살펴보기 전에 목록을 스크롤하면 한 문서에 다음과 같이 Unclassified(분류되지 않음)라는 레이블이 붙은 것을 볼 수 있습니다.

분류되지 않은 문서 알림

목록에서 서명 배지가 표시된 문서로 돌아오면 이것이 수표임을 알 수 있습니다. 서명 감지는 대부분 수작업으로 진행되는 프로세스이므로 문서 분석에서 서명 감지 시 자동으로 표시하도록 하면 시간을 크게 절약할 수 있습니다.

서명 감지

급여 명세서는 고객이 처리하기 어렵고 시간이 많이 소요되는 또 다른 문서 유형입니다. 목록에서 감지된 급여 명세서를 선택하면 해당 급여 명세서에서 추출된 데이터가 표시됩니다.

급여 명세서 감지 및 데이터 추출

데모 콘솔의 합성 데이터는 API가 주택 담보 대출 신청 패키지의 문서에서 데이터를 분석, 분류, 추출하는 방법에 대한 개요를 제공합니다. 하지만 자신이 가지고 있는 다른 문서도 사용할 수 있습니다. 데모 콘솔에서 이 작업을 수행하려면 Upload package(패키지 업로드) 버튼을 클릭하고, 분석할 문서가 포함된 단일 파일(최대 5MB, 10페이지)을 테스트 용도로 데모 콘솔에 업로드합니다. 데모 콘솔 외의 용도에서는 API가 최대 3000페이지의 문서를 지원합니다.

Download results(결과 다운로드) 버튼을 클릭하여 합성 데이터와 사용자 고유 데이터 모두에 대한 결과를 다운로드할 수 있습니다. 결과는 4개의 파일을 포함한 .zip 파일을 제공합니다. 이 중 두 개는 API의 원시 JSON 응답입니다. 나머지 두 개는 요약(summary.csv)과 추출된 데이터(extractions.csv)가 포함된 CSV 형식 파일입니다. 두 파일 모두 키-값 형식입니다.

합성 테스트 데이터에 대한 요약 데이터 파일의 내용은 다음과 같습니다.

'DocumentName,'FirstPage,'LastPage
"'Payslips","'1","'1"
"'Checks","'2","'2"
"'Identity document","'3","'3"
"'1099 DIV","'4","'4"
"'Bank statement","'5","'5"
"'W2","'6","'6"
"'Unclassified","'7","'7"

다음은 추출 파일에 포함된 데이터의 예입니다.

'key,'value
"'PAY PERIOD END DATE","'7/18/2008"
"'PAY DATE","'7/25/2008"
"'BORROWER NAME","'JOHN STILES"
"'BORROWER ADDRESS","'101 MAIN STREET ANYTOWN, USA 12345"
"'COMPANY NAME","'ANY COMPANY CORP."
"'COMPANY ADDRESS","'475 ANY AVENUE ANYTOWN, USA 10101"
"'FEDERAL FILING STATUS","'Married"
"'STATE FILING STATUS","'2"
"'CURRENT GROSS PAY","'$ 452.43"
"'YTD GROSS PAY","'23,526.80"
"'CURRENT NET PAY","'$ 291.90"
"'REGULAR HOURLY RATE","'10.00"
"'HOLIDAY HOURLY RATE","'10.00"
"'WARNINGS MESSAGES NOTES","'EFFECTIVE THIS PAY PERIOD YOUR REGULAR HOURLY RATE HAS BEEN CHANGED FROM $8.00 TO $10.00 PER HOUR."
"'CURRENT REGULAR PAY","'320"
...

대출 분석 API를 직접 사용해 보기
새 API는 Amazon Textract가 제공되는 모든 리전에서 사용할 수 있지만 이러한 워크플로와 처리 작업은 미국 중심 문서에 중점을 두고 있다는 점에 유의하세요. 새 API의 요금은 기존 테이블, 양식, 쿼리의 요금과 동일합니다. 서비스 요금 페이지에서 자세한 내용을 확인할 수 있습니다. 마지막으로 개발자 안내서에서 API에 대한 자세한 내용을 읽을 수 있습니다.

지금 Amazon Textract 콘솔에서 새로운 대출 분석 API를 직접 살펴보세요!

– Steve