亚马逊AWS官方博客
利用生成式人工智能增强 AWS 智能文档处理能力
生成式人工智能由称为基础模型(FM)的大型机器学习模型驱动。基础模型正在改变您解决传统上复杂的文档处理工作负载的方式。除现有功能外,企业还需要汇总特定类别的信息,包括财务报告和银行对账单等文件中的借记和贷记数据。基础模型可以更轻松地从提取的数据中生成此类洞察。为了优化人工审核时间并提高员工的工作效率,电话号码中缺少数字、文件缺失或地址没有街道编号等错误都可以自动标记出来。在当前场景中,您需要投入专门的资源,通过人工审核和复杂的脚本来完成这样的任务。这种方法既繁琐又昂贵。基础模型有助于以更少的资源更快地完成这些任务,并将不同的输入格式转化为可进一步处理的标准模板。在 AWS,我们提供 Amazon Bedrock 等服务,这是使用基础模型构建和扩展生成式人工智能应用程序的最简单方法。Amazon Bedrock 是一项完全托管式服务,通过 API 提供领先的人工智能初创企业和 Amazon 的基础模型,因此您可以找到最满足自己要求的模型。我们还提供 Amazon SageMaker JumpStart,此服务让机器学习从业者能够从广泛的开源基础模型中进行选择。机器学习从业者可以从网络隔离环境中将基础模型部署到专用的 Amazon SageMaker 实例,并使用 SageMaker 自定义模型以进行模型训练和部署。
Ricoh 提供工作场所解决方案和数字化转型服务,旨在协助客户管理和优化整个企业的信息流。投资组合解决方案开发副总裁 Ashok Shenoy 表示:“我们正在将生成式人工智能添加到 IDP 解决方案中,通过利用问答、总结和标准化输出等新功能,协助客户更快、更准确地完成工作。AWS 使我们能够利用生成式人工智能,同时保持每位客户的数据的独立和安全。”
在这篇文章中,我们将分享如何利用生成式人工智能增强 AWS 上的 IDP 解决方案。
改进 IDP 管道
在本节中,我们将回顾如何通过基础模型增强传统 IDP 管道,并通过一个使用 Amazon Textract 和基础模型的示例使用案例进行说明。
AWS IDP 由三个阶段组成:分类、提取和富集。有关每个阶段的更多详细信息,请参阅使用 AWS AI 服务进行智能文档处理:第 1 部分和第 2 部分。在分类阶段,基础模型现在无需任何额外训练即可对文档进行分类。这意味着,即使模型之前没有见过类似的示例,也可以对文档进行分类。在提取阶段,基础模型对日期字段进行规范化处理,并核实地址和电话号码,同时确保格式一致。富集阶段的基础模型可进行推理、逻辑推理和总结。如果在每个 IDP 阶段都使用基础模型,工作流就会更加精简,性能也会提高。下图展示了采用生成式人工智能的 IDP 管道。
IDP 管道的提取阶段
当基础模型无法直接处理原生格式(如 PDF、img、jpeg 和 tiff)的文档作为输入时,就需要一种将文档转换为文本的机制。要在将文档发送给基础模型之前从文档中提取文本,可以使用 Amazon Textract。使用 Amazon Textract,可以提取行和字词并将其传递给下游基础模型。以下架构使用 Amazon Textract 从任何类型的文档中精确提取文本,然后再将文档发送给基础模型进行进一步处理。
通常,文档由结构化和半结构化信息组成。Amazon Textract 可用于从表格和表单中提取原始文本和数据。表格和表单中的数据之间的关系在业务流程自动化中起着至关重要的作用。基础模型可能无法处理某些类型的信息。因此,我们可以选择将这些信息存储在下游存储中,也可以将这些信息发送给基础模型。下图举例说明了 Amazon Textract 如何从文档中提取结构化和半结构化信息,以及需要由基础模型处理的文本行。
使用 AWS 无服务器服务通过基础模型进行总结
我们前面介绍的 IDP 管道可以使用 AWS 无服务器服务实现无缝自动化。高度非结构化的文档在大型企业中很常见。这些文档既包括银行业的证券交易委员会(SEC,Securities and Exchange Commission)文档,也包括医疗保险业的承保文档。随着 AWS 的生成式人工智能的发展,这些行业的人们正在寻找以自动化和经济高效的方式从这些文档中获取摘要的方法。无服务器服务有助于提供快速构建 IDP 解决方案的机制。AWS Lambda、AWS Step Functions 和 Amazon EventBridge 等服务有助于构建集成基础模型的文档处理管道,如下图所示。
上述架构中使用的示例应用程序由事件驱动。事件定义为最近发生的状态变化。例如,当对象上传到 Amazon Simple Storage Service(Amazon S3)存储桶时,Amazon S3 会发出 Object Created 事件。来自 Amazon S3 的事件通知可触发 Lambda 函数或 Step Functions 工作流。这种类型的架构称为事件驱动型架构。在这篇文章中,我们的示例应用程序使用事件驱动型架构来处理出院文档样本并总结该文档的详细信息。具体流程如下:
- 当文档上传到 S3 存储桶时,Amazon S3 会触发 Object Created 事件。
- EventBridge 默认事件总线根据 EventBridge 规则将该事件传播到 Step Functions。
- 状态机工作流开始使用 Amazon Textract 处理文档。
- Lambda 函数对分析数据进行转换,以便进行下一步操作。
- 状态机调用 SageMaker 端点,该端点使用 AWS SDK 的直接集成来托管基础模型。
- S3 目标摘要存储桶接收从基础模型收集的摘要响应。
我们的示例应用程序使用 flan-t5 Hugging face 模型,通过 Step Functions 工作流总结以下患者出院摘要样本。
Step Functions 工作流使用 AWS SDK 集成来调用 Amazon Textract AnalyzeDocument 和 SageMaker 运行时 InvokeEndpoint API,如下图所示。
此工作流生成一个存储在目标存储桶中的 JSON 摘要对象。JSON 对象如下所示:
使用大规模无服务器实施的 IDP 生成这些摘要,有助于企业以经济高效的方式获得有意义、简洁和可呈现的数据。Step Functions 不会将处理文档的方法限制为一次只处理一个文档。此服务的分布式 Map 功能可以按计划汇总大量文档。
示例应用程序使用的是 flan-t5 Hugging face 模型;不过,您也可以使用自己选择的基础模型端点。训练和运行模型不在示例应用程序的范围之内。按照 GitHub 存储库中的说明部署示例应用程序。上述架构是有关如何使用 Step Functions 编排 IDP 工作流的指导。有关如何使用 AWS 人工智能服务和基础模型构建应用程序的详细说明,请参阅 IDP 生成式人工智能研讨会。
设置解决方案
按照 README 文件中的步骤设置解决方案架构(SageMaker 端点除外)。有了自己的 SageMaker 端点后,就可以将端点名称作为参数传递给模板。
清理
为节约成本,请删除作为教程一部分部署的资源:
- 按照 README 文件中清理部分的步骤进行操作。
- 从 S3 存储桶中删除所有内容,然后通过 Amazon S3 控制台删除该存储桶。
- 删除您可能通过 SageMaker 控制台创建的所有 SageMaker 端点。
总结
生成式人工智能正在改变您使用 IDP 处理文档以获得洞察的方式。AWS 人工智能服务(如 Amazon Textract)和 AWS 基础模型有助于准确处理任何类型的文档。有关在 AWS 上使用生成式人工智能的更多信息,请参阅发布用于在 AWS 上使用生成式人工智能进行构建的新工具。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。
Original URL: https://aws.amazon.com/blogs/machine-learning/enhancing-aws-intelligent-document-processing-with-generative-ai/
关于作者
Sonali Sahu 在 AWS 的人工智能/机器学习服务团队领导智能文档处理工作。她是一位作家、思想领袖和充满激情的技术专家。她关注的核心领域是人工智能和机器学习,她经常在世界各地的人工智能和机器学习会议和聚会上发表演讲。她在科技和科技行业拥有广泛而深入的经验,在医疗保健、金融领域和保险领域拥有行业专业知识。
Ashish Lal 是一名高级产品营销经理,在 AWS 负责人工智能服务的产品营销。他拥有 9 年的营销经验,曾领导过智能文档处理的产品营销工作。他在华盛顿大学获得了工商管理硕士学位。
Mrunal Daftari 是 Amazon Web Services 的企业高级解决方案架构师。他的工作地点在马萨诸塞州波士顿。他是一名云爱好者,非常热衷于为客户寻找简单且能解决客户业务成果的解决方案。他喜欢使用云技术,提供简单、可扩展的解决方案,以推动积极的业务成果、云采用战略,设计创新的解决方案并推动卓越运营。
Dhiraj Mahapatro 是 AWS 的首席无服务器专业解决方案架构师。他专门协助企业金融服务部门采用无服务器和事件驱动型架构,实现应用程序现代化并加快创新步伐。最近,他一直致力于为金融服务行业客户提供更接近无服务器和 EDA 的容器工作负载和生成式人工智能的实际应用。
Jacob Hauskens 是首席人工智能专家,拥有超过 15 年的战略业务发展和合作经验。在过去的 7 年中,他领导了基于人工智能的新 B2B 服务的上市战略的制定和实施。最近,他一直在协助 ISV 通过在智能文档处理工作流中添加生成式人工智能来增加收入。