发布于: Jul 27, 2021

Amazon Textract 是一种机器学习服务,可从任何文档或图像中提取文本和结构化数据,并且现在为发票和收据提供专业支持。直到今天,这些重要文档都难以大规模处理,因为它们不遵循既定的设计规则,并且通常需要上下文才能正确解释。例如,客户可能需要从发票顶部的 Amazon 徽标中提取供应商名称,即使它没有标记为“供应商:Amazon”。现在通过使用 Textract,客户可以从几乎任何发票或收据的商品或服务分项列表中提取明确标注的数据、隐含数据和行项目,而无需采用任何模板或配置。

从今日开始,Amazon Textract 为收据和发票添加了以下功能:1) 识别供应商名称 - Amazon Textract 可以在收据上找到供应商名称,即使它仅在页面上的徽标中指明,而没有称为“供应商”的明确标签。它还可以在行项目中查找和提取未标有列标题的项目、数量和价格,2) 能够整合来自许多文档的输出 - Textract 在从发票和收据中提取数据时将键名和列标题规范化为标准分类。例如,它检测到“发票编号”。“发票编号”和“收据号”相同并输出“INVOICE_RECEIPT_ID”,从而下游应用程序可以轻松比较多个文档的输出,以及 3) 提取行项目详细信息 (即使列标题缺失) - Textract 从发票或收据提取行项目,包括所购买个别货物的项目、数量和价格。如果行项目表不包含列标题,Textract 现在会根据表内容推断列标题的含义。

以下是一位客户的意见:

Paymerang 成立于 2010 年,为企业提供简单、安全且有利可图的电子供应商付款。Paymerang 企业平台总监 Jason Losh 表示:“通过消除日常任务、以电子方式向供应商付款并在此过程中获得现金回扣,我们帮助多个垂直领域的客户简化应付账款流程。”“我们使用符合 HIPAA 要求的服务 Amazon Textract 来帮助医疗保健行业的客户自动从发票中提取数据,而无需使用自定义逻辑来标准化提取的信息。通过提取数据并将其分类到一组一致的标准字段中,Amazon Textract 帮助我们为客户提供服务,这些客户使用不遵循发票布局通用模式的供应商。”

有关此功能的更多信息,请参阅给出更详细解释的文档,以及描述如何通过名为 AnalyzeExpense 的新 API 将 Textract 用于发票和收据的博客文章。下面是指向定价页面的链接。

AnalyzeExpense 将分批次发布,首先是于 7 月 26 日在亚太地区 (新加坡) 区域发布,然后于 7 月 27 日在欧洲 (爱尔兰) 发布、7 月 28 日在亚太地区 (悉尼)、美国东部 (俄亥俄)、美国西部 (加利福尼亚北部) 发布,接下来是于 7 月 29 日在欧洲 (法兰克福)、欧洲 (伦敦) 和美国东部 (弗吉尼亚北部) 发布,以及于 7 月 30 日在亚太地区 (首尔)、亚太地区 (孟买)、加拿大 (中部)、欧洲 (巴黎)、美国西部 (俄勒冈) 发布,最后是于 8 月 2 日在 GovCloud (美国东部)、GovCloud (美国西部) 区域发布。