亚马逊AWS官方博客

通过 Amazon Textract 提取手写信息

原文链接:

https://aws.amazon.com/cn/blogs/machine-learning/extracting-handwritten-information-through-amazon-textract/

 

本篇文章由Quantiphi有限公司客户解决方案合作伙伴Vibhav Sangam Gupta撰写。Guitphiphi是一家屡获殊荣的应用AI与数据科学软件及服务公司,以帮助客户解决核心业务问题为使命。我们对客户充满热情,致力于解决问题以提升产品智能水平、强化客户体验、推进流程自动化并巩固业务安全性。

 

过去几年以来,企业需要处理的文档数量正在急剧增加,其中涵盖涉及不同文档格式的结构化与非结构化文本。以往,处理这类文档并从中提取信息是一项劳动密集型工作,并且实现成本极高。其中涉及复杂的操作,极易出错,经常触犯监管规定并因此造成不必要的罚款。因此,不少数字化成熟度较高的组织开始尝试使用智能文档处理解决方案。

Quantiphi 公司也投身到这一波转型中来,并见证了QDox的快速发展。QDox是一套建立在Amazon Textract基础之上的文档处理解决方案,负责提取信息以获得业务洞察,并借此实现下游业务流程自动化。我们为保险、医疗保健、金融服务、制造业自动贷款处理、患者登记以及合规性管理等领域的客户提供帮助。

尽管这些解决方案克服了企业在减少手动工作方面的部分难题,但从手写文本当中提取信息仍是一项重大挑战。这主要是因为手写文本天然具有一定的复杂性,例如:

  • 手写字体多种多样、差异巨大
  • 质量差或者笔迹模糊
  • 手写连笔或草体文字
  • 文字压缩或扩展

正是这些挑战,让企业难以从文本中正确捕捉数据并整理出有意义的洞察。

 

用例:保险服务商

最近,我们的一位客户、一家总部位于美国的大型补充保险服务商,就面临着类似的挑战。他们需要从医生的手写笺记中提取重要信息,而且这类资料在总文件中占比高达20%。最初,他们只能手动筛选文件以决定索赔支出,但长达5到6天的处理周期迫使他们不得不寻求自动化之路。为此,我们构建起一套解决方案,能够从多种受支持的文档格式中提取印刷文本与手写文本,借此验证索赔申请。为了简化保单持有人的操作流程,我们开发出一套用户界面,能够使用对话代理与用户交互,并由代理获取必要的受支持文档以处理索赔案例。这套解决方案能够从受支持的文档中提取多种信息,例如索赔申请、医师笺记与发票,由此快速验证索赔申请。

下图展示了整个处理流程。

这套解决方案将人为工作量降低超过70%,但从医生的手写笺记中提取并验证信息仍是一项艰难的工作。由于准确率不足,往往需要人工干预才能正确验证信息,这严重影响了流程的执行效率。

 

解决方案: Amazon Textract

作为AWS合作伙伴,我们需要联系Amazon Textract产品团队以支持手写识别功能。AWS方面向我们保证,他们正在开发相应的解决方案以应对此类挑战。因此在Amazon Textract推出用于手写文本的beta版方案时,我们成为最早参与内部测试的客户之一。Textract团队与我们紧密合作,并迅速迭代此项功能以提高对各类文档的识别准确率。以下是Textract识别的一份示例文件。实际上,我们的客户也明确表示,Textract确实带来了超越其他手写识别服务的高质量效果。

我们使用Amazon Textract手写beta版处理了一批客户示例文档,发现它让整个流程的准确率高达90%以上,同时显著减少了人为介入的需求。以此为基础,我们得以将平台的应用范围扩展到客户的更多工作场景当中。

以客户的成功为参考,我们计划将Amazon Textract手写解决方案引入各个行业的不同流程当中。随着该产品的正式发布,我们相信具体实施方式将更加简单,而识别质量也将达到新的水准。

 

总结

总体而言,我们与AWS的合作关系帮助我们解决了一系列极具挑战性的业务难题,由此为客户带来巨大价值。我们计划与AWS继续合作,尝试解决其他更为艰难的问题,最终为我们的客户带来真正的业务价值。

大家可以通过多种方式快速上手Amazon Textract:与我们的AWS合作伙伴Quantiphi联系,联络您的客户经理或解决方案架构师,或者访问我们的 Amazon Textract产品页面以了解更多可用资源

 

本篇作者

Vibhav Sangam Gupta,Quantiphi有限公司客户解决方案合伙人。Quantiphi是一家应用AI与机器学习软件及服务公司,致力于帮助客户将大数据与机器学习技术转化为可量化的积极业务推动力。