发布于: Mar 24, 2022

除文本、PDF 和 Word 以外,Amazon Comprehend 现在还支持图像格式的文档。客户现在可以使用 Comprehend 自定义实体识别提取图像文件(JPG、PNG、TIFF)中的实体,或者直接对 Amazon Textract JSON 输出使用 Comprehend 以提取文档中的自定义实体。借助此次发布,客户可以简化其智能文档处理(IDP)工作流,利用 Comprehend 和 Textract 之间的开箱即用集成从文档提取实体。以下是这些功能的详细说明:

图像文件上的自定义 NER - Amazon Comprehend 之前发布了对 PDF 和 Word 文档的自定义实体识别支持(见 公告以了解详情)。从今天开始,客户还可以使用 Comprehend 从图像文件格式(JPG、PNG、TIFF)的文档中提取信息,以进一步支持多样化文档处理工作流。此项功能消除了在完成 Comprehend 实体提取前对 OCR 输出执行后期处理的必要性。客户首先要注释,并针对 PDF 文档对自定义实体识别模型进行训练。训练后的自定义实体识别模型会在推理期间利用文本的自然语言和位置信息(如坐标)准确提取 PDF、Word、纯文本,以及现在的图像格式当中的自定义实体。请参阅文档,以了解更多详细信息。 

Textract JSON 输出上的自定义 NER - 从今天开始,客户可以在 Comprehend 自定义 NER 推理期间使用其 Textract DetectDocumentText 或 AnalyzeDocument JSON 输出作为输入。通过利用现有的 Textract 输出,客户可以进一步简化其文档处理工作流(节约时间和金钱)并扩展其工作流,以便从更广泛的文档提取自定义实体。请参阅文档,以了解更多详细信息。

如需了解更多信息并开始使用,请访问 Amazon Comprehend 产品页面