Amazon Textract

从几乎任何文档中轻松提取文本和数据

Amazon Textract 是一项从扫描的文档中自动提取文本和数据的服务。Amazon Textract 的功能不只是简单的光学字符识别 (OCR),它还可以识别表单中字段的内容和表格中存储的信息。

目前,许多公司通过手动输入数据从文档和表单中提取数据(速度缓慢且成本高昂),或者通过简单光学字符识别 (OCR) 软件(很难自定义)提取数据。每次更改表单或处理多个表单时,都需要对每个文档和表单的规则和工作流进行硬编码和更新。如果表单不匹配规则,输出内容通常是混乱的,无法使用。

Amazon Textract 通过使用机器学习即时“读取”几乎任何类型的文档来准确提取文本和数据,而无需任何人工操作或自定义代码,从而克服了这些障碍。借助 Textract,您可以快速自动执行文档工作流,数小时可处理数百万个文档页面。捕获到信息后,您可以在业务应用程序中对其执行操作,以便启动贷款申请或医疗索赔处理的后续步骤。此外,您还可以创建智能搜索索引,构建自动批准工作流,并通过标记可能需要校订的数据,更好地保持对文档存档规则的符合性。

Amazon Textract 简介

优势

快速准确地提取数据

借助 Amazon Textract,您可以轻松快速且准确地从文档和表单中提取数据。Amazon Textract 可自动检测文档的布局和页面上的关键元素,了解任何嵌入式表单或表格中的数据关系,并提取完整的上下文所有内容。这意味着您可以在应用程序中即时使用提取的数据或将其存储在数据库中,无需在其间执行大量复杂的代码。



无需维护代码或模板

借助 Amazon Textrac 预先经过训练的机器学习模型,您无需为数据提取编写代码,因为这些模型已针对几乎涵盖所有行业的数千万份文档进行了训练,其中包括发票、收据、合同、税务文件、销售订单、登记表单、福利申请、保险索赔、政策文件等等。您再也不需要为可能收到的每个文档或表单维护代码,也不必担心页面布局随着时间的推移而发生变化。

更低的文档处理成本

使用 Amazon Textract 的文本提取 API,您能够以 1.50 美元/1,000 页的价格处理文档。无论是每年处理几百个文档还是数百万个文档,Amazon Textract 都会以非常低的成本提供 OCR 和结构化数据提取(表单和表格),您只需按照实际使用量付费。无需预先承诺或长期合同。

使用案例

创建智能搜索索引

使用 Amazon Elasticsearch Service 从文档中提取结构化数据并创建智能索引,可以快速搜索数百万份财务报表。例如,抵押贷款公司可以使用 Amazon Textract 在数小时内处理数百万个经过扫描的贷款申请,并在 Amazon Elasticsearch 中对提取的数据编制索引。这样有利于他们创建搜索体验,例如“搜索申请人姓名为 John Doe 的贷款申请”或“搜索利率为 2% 的合同”。

构建自动化文档处理工作流

Amazon Textract 可以提供自动处理表单所需的输入,而无需人工干预。例如,银行可以编写代码来读取贷款申请的 PDF。文档中包含的信息可用于启动批准贷款所需的所有背景和信用检查,这样一来,客户可以立即获得申请结果,而不必等待几天进行人工审查和验证。

保持文档存档的符合性

由于 Amazon Textract 会自动识别数据类型和表单标签,因此很容易保持对信息控制要求的符合性。例如,通过自动识别需要保护的重要键值对,保险公司可以使用 Amazon Textract 来提供可自动编辑个人身份信息 (PII) 的工作流,以供在存档索赔表单之前进行审查。

Product-Page_Standard-Icons_01_Product-Features_SqInk
查看 Amazon Textract 的功能

详细了解 Amazon Textract 如何检测键值对和保留表格数据等功能。

了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
注册 Amazon Textract 预览版

注册预览访问,开始使用 Amazon Textract 进行构建。

注册