게시된 날짜: Mar 24, 2022

Amazon Comprehend는 이제 텍스트, PDF, Word 외에도 이미지 형식의 문서를 지원합니다. 고객은 이제 Comprehend 사용자 정의 엔터티 인식을 사용하여 이미지 파일(JPG, PNG, TIFF)에서 엔터티를 추출할 수 있으며, Amazon Textract JSON 출력에서 바로 Comprehend를 사용하여 사용자 정의 엔터티를 문서에서 추출할 수 있습니다. 이번 출시로 고객은 지능형 문서 처리(IDP) 워크플로를 단순화하고, 문서에서 엔터티를 추출하기 위한 Comprehend와 Textract 간 즉시 통합을 활용할 수 있게 되었습니다. 다음은 이러한 기능에 대한 자세한 설명입니다.

이미지 파일의 사용자 정의 NER - Amazon Comprehend는 이전에 PDF 및 Word 문서에 대한 사용자 정의 엔터티 인식 지원을 시작했습니다(자세한 내용은 공지 사항 참조). 오늘부터 고객은 추가적으로 다양한 문서 처리 워크플로를 지원하기 위하여 Comprehend를 사용해서 이미지 파일(JPG, PNG, TIFF)이 있는 문서에서 정보를 추출할 수 있습니다. 이 기능으로 인해 Comprehend를 활용한 엔터티 추출 완료에 앞서 OCR 출력을 후처리할 필요가 없습니다. 고객은 먼저 PDF 문서의 사용자 정의 엔터티 인식 모델에 주석을 표시하고 훈련을 시킵니다. 훈련된 사용자 정의 엔터티 인식 모델은 자연어 및 텍스트의 위치 정보(예: 좌표)를 모두 사용하여 추론 중에 PDF, Word, 평문에서 사용자 지정 엔터티를 정확하게 추출할 수 있으며 이제는 이미지 형식에서도 추출할 수 있습니다. 자세한 내용은 설명서를 참조하세요. 

Textract JSON 출력의 사용자 정의 NER - 오늘부터 고객은 Textract DetectDocumentText 또는 AnalyzeDocument JSON 출력을 Comprehend 사용자 정의 NER 추론 시 입력 값으로 사용할 수 있습니다. 기존 Textract 출력을 활용하여 고객은 문서 처리 워크플로를 더욱 단순화할 수 있고(시간과 비용 절약), 광범위한 문서 세트에서 사용자 정의 엔터티를 추출하는 데까지 워크플로를 확장할 수 있습니다. 자세한 내용은 설명서를 참조하세요.

자세히 알아보고 시작하려면 Amazon Comprehend 제품 페이지를 참조하세요.