Amazon Textract 在 Analyze Document API 中推出新的 Queries 功能

发布于: Apr 21, 2022

Amazon Textract 是一种机器学习服务，从文档或图像中自动提取文本、手写内容和数据。Textract 现在可让您使用 Analyze Document API 中的新 Queries 功能灵活指定需要从文档中提取的数据。您无需了解文档中数据的结构（表、表单、隐含字段、嵌套数据），也无需担心文档版本和格式之间的差异。Queries 利用视觉、空间和语言提示的组合来高精度地提取寻找的信息。

传统的 OCR 解决方案难以从大多数非结构化和半结构化文档中准确提取数据，因为这些文档的多个版本和格式之间的数据布局方式存在显著差异。您需要实现自定义后处理代码或手动审核从这些文档中提取的信息。还需要解析整个 OCR 输出以提取业务流程所需的信息。借助 Queries，您将能够以自然语言问题的形式（例如，“客户名称是什么”）指定需要的信息，以及接收作为 API 响应一部分的确切信息（例如，“John Doe”）。Queries 还可让您为每个问题分配别名，从而轻松地将输出与下游系统集成。此外，Queries 在大量非结构化、半结构化和结构化文档上进行了预先训练。一些例子包括工资单、银行对账单、W-2 表格、贷款申请表、抵押票据、疫苗接种和保险卡。

要了解有关此新功能的详情，可以阅读分步博客以立即开始使用，也可以查看相关文档。Amazon Textract 的定价页面上提供了这一新功能的定价。

从 2022 年 3 月 31 日起，Textract 的 Analyze Document Queries 将在以下区域推出：美国东部（俄亥俄）、美国东部（弗吉尼亚北部）、美国西部（加利福尼亚北部）、美国西部（俄勒冈）、亚太地区（孟买）、亚太地区（首尔）、亚太地区（新加坡）、亚太地区（悉尼）、加拿大（中部）、欧洲（法兰克福）、欧洲（爱尔兰）、欧洲（伦敦）、欧洲（巴黎）、AWS GovCloud (美国东部) 和 AWS GovCloud (美国西部)。单击此处开始使用 Analyze Document Queries。

Amazon Textract 在 Analyze Document API 中推出新的 Queries 功能

终止对 Internet Explorer 的支持