게시된 날짜: Apr 21, 2022
Amazon Textract는 문서 또는 이미지에서 텍스트, 필기 및 데이터를 자동으로 추출하는 기계 학습 서비스입니다. Textract는 이제 Analyze Document API 내의 새로운 Queries 기능을 사용하여 문서에서 추출하는 데 필요한 데이터를 지정하는 유연성을 제공합니다. 문서(테이블, 양식, 암시적 필드, 중첩 데이터)에 있는 데이터의 구조를 알 필요가 없으며 문서 버전과 형식에 따른 변형에 대해 걱정할 필요가 없습니다. Queries는 시각적, 공간적, 언어적 신호의 조합을 활용하여 원하는 정보를 높은 정확도로 추출합니다.
기존 OCR 솔루션은 이러한 문서의 여러 버전 및 형식에 걸쳐 데이터가 배치되는 방식이 크게 다르기 때문에 대부분의 비정형 및 반정형 문서에서 데이터를 정확하게 추출하는 데 어려움을 겪습니다. 사용자 정의 사후 처리 코드를 구현하거나 이러한 문서에서 추출한 정보를 수동으로 검토해야 합니다. 또한 비즈니스 프로세스에 필요한 정보를 추출하려면 전체 OCR 출력을 구문 분석해야 합니다. Queries를 사용하면 자연어 질문 형식으로 필요한 정보를 지정하고(예: "고객 이름은 무엇입니까?") API 응답의 일부로 정확한 정보(예: "John Doe")를 받을 수 있습니다. 또한 Queries를 사용하면 각 질문에 별칭을 할당할 수 있으므로 출력을 다운스트림 시스템과 손쉽게 통합할 수 있습니다. 이와 더불어 Queries는 다양한 비정형, 반정형 및 정형 문서에 대해 사전 학습됩니다. 몇 가지 예에는 급여 명세서, 은행 명세서, W-2, 대출 신청서 양식, 모기지 노트, 백신 카드 및 보험증이 포함됩니다.
Textract의 Analyze Document Queries는 미국 동부(오하이오), 미국 동부(버지니아 북부), 미국 서부(캘리포니아 북부), 미국 서부(오레곤), 아시아 태평양(뭄바이), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 캐나다(중부), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(런던), 유럽(파리), AWS GovCloud(미국 동부) 및 AWS GovCloud(미국 서부)에서 2022년 3월 31일부터 제공됩니다. Analyze Document Queries를 시작하려면 여기를 클릭하세요.