发布于: Apr 21, 2022
Amazon Textract 是一种机器学习服务,从文档或图像中自动提取文本、手写内容和数据。Textract 现在可让您使用 Analyze Document API 中的新 Queries 功能灵活指定需要从文档中提取的数据。您无需了解文档中数据的结构(表、表单、隐含字段、嵌套数据),也无需担心文档版本和格式之间的差异。Queries 利用视觉、空间和语言提示的组合来高精度地提取寻找的信息。
传统的 OCR 解决方案难以从大多数非结构化和半结构化文档中准确提取数据,因为这些文档的多个版本和格式之间的数据布局方式存在显著差异。您需要实现自定义后处理代码或手动审核从这些文档中提取的信息。还需要解析整个 OCR 输出以提取业务流程所需的信息。借助 Queries,您将能够以自然语言问题的形式(例如,“客户名称是什么”)指定需要的信息,以及接收作为 API 响应一部分的确切信息(例如,“John Doe”)。Queries 还可让您为每个问题分配别名,从而轻松地将输出与下游系统集成。此外,Queries 在大量非结构化、半结构化和结构化文档上进行了预先训练。一些例子包括工资单、银行对账单、W-2 表格、贷款申请表、抵押票据、疫苗接种和保险卡。
从 2022 年 3 月 31 日起,Textract 的 Analyze Document Queries 将在以下区域推出:美国东部(俄亥俄)、美国东部(弗吉尼亚北部)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、亚太地区(孟买)、亚太地区(首尔)、亚太地区(新加坡)、亚太地区(悉尼)、加拿大(中部)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、AWS GovCloud (美国东部) 和 AWS GovCloud (美国西部)。单击此处开始使用 Analyze Document Queries。