게시된 날짜: Jan 26, 2022
Amazon Textract는 스캔한 문서에서 텍스트, 필기 및 데이터를 자동으로 추출하여 단순한 광학 문자 인식(OCR)을 넘어 양식과 테이블에서 데이터를 식별, 이해 및 추출하는 기계 학습 서비스입니다.
지금까지 고객은 청구서 양식, 인보이스 및 영수증, 계약서/협약서, 신원 확인 서류, 신청 양식과 같은 텍스트와 데이터를 문서에서 추출하기 위해 Textract의 동기식 API(DetectDocumentText, AnalyzeDocument, AnalyzeExpense 및 AnalyzeID)를 호출하기 전에 PDF 문서를 PNG나 JPEG 형식으로 변환해야 했습니다. 오늘부터 Amazon Textract는 이런 사전 처리 단계를 없애고 단일 페이지 PDF 문서에 동기식 작업을 지원하여 고객이 PDF에서 PNG나 JPEG로 문서를 변환하지 않고 텍스트와 데이터를 PDF 문서에서 추출할 수 있습니다.
또한 Amazon Textract는 이제 PDF 문서 내의 JPEG 2000 인코딩 이미지 처리를 지원합니다. 이제 PDF 문서 내 JPEG 2000 인코딩 이미지에서 텍스트와 데이터를 추출할 수 있습니다.
시작하려면 Amazon Textract 콘솔에 로그인해서 PDF 문서를 테스트해 보세요. Textract 기능에 대해 자세히 알아보려면 Amazon Textract 웹 사이트, 개발자 가이드 또는 리소스 페이지를 참조하세요.