此 AWS 解决方案有什么作用?

Document Understanding Solution 提供了一种易于使用的 Web 应用程序,可摄取和分析文件、从文档中提取文本、识别结构化的数据(表、键值对)、提取关键信息(实体)以及利用数据创建智能搜索索引。此外,您还可以直接将文件上传到您 AWS 账户中的 Amazon Simple Storage Service(Amazon S3)存储桶,并且可以从该存储桶访问分析的文件。

此解决方案使用 AWS 人工智能(AI)服务来解决不同垂直市场的商业问题:

  • 搜索和发现:跨多个扫描文档、PDF 和图像搜索信息
  • 合规性:编辑文档中的信息
  • 工作流自动化:轻松连接到现有的上下游应用程序 

 

AWS 解决方案概览

下图显示了您可以使用该解决方案实施指南和随附的 AWS CloudFormation 模板自动部署的架构。

Document Understanding Solution 架构

AWS CloudFormation 模板会部署在 Amazon S3 存储桶中托管并由 Amazon CloudFront 分配服务的静态 Web 应用程序。用户使用 Amazon Cognito 来进行身份验证。此 Web 应用程序将使用 Amazon API Gateway API(由 AWS Lambda 函数支持)来与后端交互。文档将使用此 Web 应用程序上传,或者直接上传到某个专用的 Amazon S3 存储桶中以进行批量处理。API 会启动 Lambda 函数以将条目添加到 Amazon DynamoDB 表中,从而启动文档处理。该表会启动第二个 Lambda 来监督处理。上传文件的格式决定了处理的路由。Amazon Textract 会提取文件中的文本和结构化信息。然后会将提取的文本传递到 Amazon ComprehendAmazon Comprehend Medical 进行进一步的分析。

分析结果将存储在 Amazon S3 存储桶中,而元数据则存储在 DynamoDB 数据库中。提取的信息将用于在 Amazon OpenSearch Service 和 Amazon Kendra(如已激活)中创建该文档的索引。

理解解决方案的文档

版本 1.0.4
发布日期:2022 年 8 月
作者:AWS

预计部署时间:30–60 分钟

估计费用  源代码  CloudFormation 模板 
使用下面的按钮订阅此解决方案实施的更新。
注意:要订阅 RSS 更新,您必须为您正在使用的浏览器启用 RSS 插件。
此解决方案实施对您有帮助吗?
提供反馈 

功能

搜索和发现

跨多个扫描文档、PDF 和图像搜索信息。

利用 AWS 人工智能服务

使用 Amazon Textract 提取文件中的文本和结构化信息,然后传递到 Amazon Comprehend 和 Amazon Comprehend Medical 进行更深入的分析。

合规性

编辑文档中的信息。
构建图标
自己部署解决方案

浏览我们的 AWS 解决方案实施库,以获取常见架构问题的答案。

了解详情 
查找 APN 合作伙伴
查找 APN 合作伙伴

寻找 AWS 认证的咨询和技术合作伙伴,以帮助您入门。

了解详情 
探索图标
了解解决方案咨询服务

浏览我们的咨询服务组合,以获取经过 AWS 审查的解决方案部署帮助。

了解详情