亚马逊AWS官方博客

使用 Amazon Textract 对抵押贷款数据进行分类和提取

至少在美国,抵押贷款申请包括大约 500 页或更多页的不同文档。为了审查申请,需要对这些文档进行分类,并提取每张表格上的数据。这并不像听起来那么容易! 除了每个文档中的数据结构不同之外,同一数据元素在不同的文档上可能有不同的名称,例如 SSN、社会安全号码或税号。这三个指的都是相同的数据。

现在,Amazon Textract 提供了一个新的 Analyze Lending API,用于对抵押贷款申请包中包含的文档进行分析和分类,并提取其中包含的数据。这个新 API 是应业内主要贷款机构的要求而创建的,旨在帮助他们更快地处理申请并减少错误,从而改善最终客户体验并降低运营成本。

到目前为止,对抵押贷款申请包中的数据进行分类和提取一直是人力密集型任务,尽管一些贷款机构采用了混合的方法,比如使用 Amazon Textract 等技术。但是,客户告诉我们,他们需要更高的工作流自动化程度来加快自动化工作并减少人为错误,这样他们的员工就可以专注于更高价值的任务。

这个新 API 还提供了额外的增值服务。它能够检测哪些文档有签名,哪些没有签名。它还提供了抵押贷款申请包中文件的摘要输出,并能够识别经常会出现的精选重要文件,例如银行语句和 1003 表格。新的工作流由一系列机器学习(ML)模型提供支持。上传抵押贷款申请包后,工作流会对包中的文档进行分类,然后根据分类将文档传送到正确的 ML 模型进行数据提取。

试用新的 Analyze Lending API
尽管这个新 API 旨在让贷款机构将其整合到业务流程工作流和应用程序中,但实际上任何人都可以使用 Amazon Textract 控制台试用该 API。这样您就可以看到该 API 如何对文档进行分类并提取其中包含的数据元素。如果您关注机器学习和人工智能的应用,那么即使您没有处理抵押贷款申请包,您也可能会对此感兴趣。

我首先打开 Amazon Textract 控制台,在导航面板中展开 Analyze Lending(分析贷款),然后选择 Demo(演示)。演示控制台会立即分析一组合成测试文件,并输出如下所示的结果(您可以随时单击 Reset demo(重置演示)按钮重新开始演示)。我获得了分析结果摘要和涵盖包中每个文档的文档轮播。演示控制台还有一个便于使用的帮助面板,其中包含与文档相关的术语摘要。

抵押贷款文档分析摘要、轮播和术语帮助文本

在轮播中,我可以看到一个标有签名徽章的文档,表示检测到签名,但在查看之前,如果我滚动轮播,可以看到一个被标记为“Unclassified”(未分类)的文档:

未分类文档通知

在轮播中回到标有签名徽章的文档,我可以看出这是一张支票。签名检测通常是一个高度手动的过程,因此让文档分析功能在检测到签名时自动进行标记可以节省大量时间。

签名检测

工资单是另一种文档类型,客户告诉我们处理起来既困难又耗时。在轮播中选择检测到的工资单即可显示从中提取的数据。

工资单检测和数据提取

演示控制台中的合成数据大致描述了该 API 如何分析、分类和提取抵押贷款申请包中文档的数据。但是,我也可以使用自己的文档。为了在演示控制台中执行此操作,我单击 Upload package(上传文档包)按钮,并提供一个最大 5MB、最多 10 页的文件,用于在演示控制台中进行测试,其中包含要分析的文档。在演示控制台之外使用时,该 API 支持多达 3000 页的文档。

无论是合成数据还是您自己的数据,其结果都可以通过单击 Download results(下载结果)按钮来下载。这提供了一个包含四个文件的 .zip 文件,其中两个是该 API 的原始 JSON 响应。另外两个是 CSV 格式的文件,其中包含摘要 (summary.csv) 和提取的数据 (extractions.csv)。这两个文件均为键值格式。

合成测试数据的摘要数据文件内容如下。

'DocumentName,'FirstPage,'LastPage
"'Payslips","'1","'1"
"'Checks","'2","'2"
"'Identity document","'3","'3"
"'1099 DIV","'4","'4"
"'Bank statement","'5","'5"
"'W2","'6","'6"
"'Unclassified","'7","'7"

以下是提取文件中包含的数据示例。

'key,'value
"'PAY PERIOD END DATE","'7/18/2008"
"'PAY DATE","'7/25/2008"
"'BORROWER NAME","'JOHN STILES"
"'BORROWER ADDRESS","'101 MAIN STREET ANYTOWN, USA 12345"
"'COMPANY NAME","'ANY COMPANY CORP."
"'COMPANY ADDRESS","'475 ANY AVENUE ANYTOWN, USA 10101"
"'FEDERAL FILING STATUS","'Married"
"'STATE FILING STATUS","'2"
"'CURRENT GROSS PAY","'$ 452.43"
"'YTD GROSS PAY","'23,526.80"
"'CURRENT NET PAY","'$ 291.90"
"'REGULAR HOURLY RATE","'10.00"
"'HOLIDAY HOURLY RATE","'10.00"
"'WARNINGS MESSAGES NOTES","'EFFECTIVE THIS PAY PERIOD YOUR REGULAR HOURLY RATE HAS BEEN CHANGED FROM $8.00 TO $10.00 PER HOUR."
"'CURRENT REGULAR PAY","'320"
...

自己试试使用 Analyze Lending API
这个新 API 可在所有提供 Amazon Textract 的区域使用,但请注意,工作流和处理主要针对以美国为中心的文档。这个新 API 的定价与现有的表、表单和查询的定价相同。有关更多详细信息,请参阅服务定价页面。最后,您可以在开发人员指南中阅读更多关于该 API 的内容

立即在 Amazon Textract 控制台中亲自探索全新的 Analyze Lending API!

— Steve