发布于: Sep 15, 2021
Amazon Comprehend 是一种自然语言处理 (NLP) 服务,使用机器学习来发现文本中的信息,现在允许您从各种格式(PDF、Word、纯文本)和布局(如项目符号、列表)的文档中提取自定义实体。这使您能够更轻松地提取洞察,并进一步将文档处理工作流自动化。
在本次发布之前,您只能在纯文本文档上使用 Amazon Comprehend,这要求您将文档扁平化为机器可读文本,这通常会降低文档中上下文的质量。这项新功能结合了自然语言处理 (NLP) 和光学字符识别 (OCR) 的强大技术,使用相同的 API 从 PDF、Word 和纯文本文档中提取自定义实体,而无需预处理。
新的自定义实体识别功能利用文本的结构化上下文(页面中的文本位置)与自然语言上下文相结合,从密集文本、编号列表和项目符号中提取自定义实体。这种组合还允许客户提取不直接属于同一文本范围的不连续或断开连接的实体(例如,嵌套在表中的实体)。这项新功能还消除了客户在使用 Comprehend 之前构建自定义逻辑以将 PDF 和 Word 文件转换为扁平的纯文本的需要。通过本机支持新的文档格式,Comprehend 为需要处理各种文档格式和布局的抵押贷款、金融和保险公司等行业的客户提供了关键益处。例如,抵押贷款公司现在可以从银行对账单、工资存根和就业验证信 PDF 扫描件等文档中提取申请人的银行信息、地址和联署人姓名,从而更快地处理申请。
要训练可用于 PDF、Word 和纯文本文档的自定义实体识别模型,客户需要首先使用 Amazon Comprehend 提供的自定义 Amazon SageMaker Ground Truth 注释模板对 PDF 文档进行注释。自定义实体识别模型利用文本的自然语言和位置信息(如坐标)准确提取以前在展平文档时可能受到影响的自定义实体。有关如何注释文档的按步骤详细信息,请参见使用 Amazon Comprehend 提取文档中命名实体的自定义文档注释。完成注释后,可以训练自定义实体识别模型,并使用其从 PDF 和 Word 中提取自定义实体以进行批处理(异步)。为了从 PDF 文档扫描件中提取文本和文本的空间位置,Amazon Comprehend 会代表您调用 Amazon Textract,作为自定义实体识别之前的一个步骤。有关如何训练和使用模型的详细信息,请参见使用 Amazon Comprehend 从文档中以其本机格式提取自定义实体。
通过 AWS 控制台和 AWS CLI 可直接获得对纯文本、PDF 和 Word 文档的自定义实体识别支持。要查看支持 Comprehend 和 Textract 的 AWS 区域列表,请访问所有 AWS 全球基础设施的 AWS 区域表。