Amazon Textract

从几乎任何文档中轻松提取文本和数据
Amazon Textract 是一项从扫描的文档中自动提取文本和数据的服务。Amazon Textract 的功能不只是简单的光学字符识别 (OCR),它还可以识别表单中字段的内容和表格中存储的信息。

目前,许多公司通过手动输入数据从文档和表单中提取数据(速度缓慢且成本高昂),或者通过简单光学字符识别 (OCR) 软件(需要手动自定义或配置)提取数据。每次更改表单或处理多个表单时,都需要对每个文档和表单的规则和工作流进行硬编码和更新。如果表单不匹配规则,输出内容通常是混乱的,无法使用。

Amazon Textract 通过使用机器学习即时“读取”几乎任何类型的文档来准确提取文本和数据,而无需任何人工操作或自定义代码,从而克服了这些障碍。借助 Textract,您可以快速自动执行文档工作流,数小时可处理数百万个文档页面。捕获到信息后,您可以在业务应用程序中对其执行操作,以便启动贷款申请或医疗索赔处理的后续步骤。此外,您还可以创建智能搜索索引,构建自动批准工作流,并通过标记可能需要校订的数据,更好地保持对文档存档规则的符合性。

Amazon Textract 简介 (3:04)

优势

快速准确地提取数据

借助 Amazon Textract,您可以轻松快速且准确地从文档、表单和表格中提取数据。Amazon Textract 可以自动检测文档的布局和页面上的关键元素,了解任何嵌入式表单或表格中的数据关系,并提取附带完整上下文的所有内容。这意味着您可以在应用程序中即时使用提取的数据或将其存储在数据库中,无需在其间执行大量复杂的代码。



无需维护代码或模板

借助 Amazon Textract 预先经过训练的机器学习模型,您无需为数据提取编写代码,因为这些模型已针对几乎涵盖所有行业的数千万份文档进行了训练,其中包括合同、税务文件、销售订单、登记表单、福利申请、保险索赔、政策文件等等。您再也不需要为可能收到的每个文档或表单维护代码,也不必担心页面布局随着时间的推移而发生变化。

更低的文档处理成本

Amazon Textract 以非常低的成本提供 OCR 和结构化数据提取(表单和表格),您只需按照实际使用量付费。无需预先承诺或长期合同。您可以使用 Amazon Textract 的文本提取 API 轻松处理数以百万的文档。

使用案例

创建智能搜索索引

从文档中提取结构化数据并创建智能索引,可以快速搜索数百万份财务报表。例如,抵押贷款公司可以使用 Amazon Textract 在数小时内处理数百万个经过扫描的贷款申请,并在 Amazon Elasticsearch 中对提取的数据编制索引。这样有利于他们创建搜索体验,例如“搜索申请人姓名为 John Doe 的贷款申请”或“搜索利率为 2% 的合同”。

构建自动化文档处理工作流

Amazon Textract 可以提供自动处理表单所需的输入,而无需人工干预。例如,银行可以使用 Amazon Textract 自动处理贷款申请。文档中包含的信息可用于启动批准贷款所需的所有背景和信用检查,这样一来,客户可以立即获得申请结果,而不必等待几天进行人工审查和验证。

保持文档存档的符合性

由于 Amazon Textract 会自动识别数据类型和表单标签,因此很容易保持对信息控制要求的符合性。例如,通过自动识别需要保护的重要键值对,保险公司可以使用 Amazon Textract 来为可自动编辑个人身份信息 (PII) 的工作流提供信息,以供在存档索赔表单之前进行审查。

客户成功案例

600x400-cambia-health-solutions_logo

Cambia Health Solutions 是一家全面的健康解决方案公司,旗下拥有包括 Regence 在内的六项区域性健康保险计划。该公司在俄勒冈州、爱达荷州、犹他州和华盛顿州为 260 万会员提供服务。

“在过去的 100 年间,Cambia 致力于改善参保者及其家人的医疗保健水平。为了帮助我们实现这一目标,我们一直在评估新的创新和机会,以优化护理协调。我们关注的重点领域之一是简化耗时费力的行政流程。我们很高兴尝试 Amazon Textract 的功能,帮助我们将从纸质表格中提取有价值数据的过程自动,并确保准确高效。数据科学、人工智能和以人为本的方法三者结合带来的强大能力是我们转变医疗保健系统使命的关键。”

Faraz Shafiq,首席人工智能官 - Cambia Health Solutions


Change Healthcare_red_blue_logo_CMYK-01

Change Healthcare 是一家领先的独立医疗技术公司,提供数据和分析驱动的解决方案,以改善美国医疗系统中的临床、财务和患者参与度结果。

“在 Change Healthcare,我们相信,通过改善财务和行政决策的及时性和质量,我们可以使所有人都能负担得起并能获得医疗保健。机器学习技术的强大功能可以从我们的数据中了解更多信息,从而实现这一目标。但是,释放这些信息的潜力通常很困难,因为它分别存储在一个个表格和表单中,而传统的光学字符识别无法对其进行分析。 Amazon Textract 除处理文本之外,还具有检索结构化数据的能力,从而进一步提高了理解文档的能力。现在,随着该服务达到 HIPAA 的要求,我们将能够从数百万个文档中将信息解放出来,并为患者、付款方和提供商创造更多价值。”

Nick Giannasi,EVP 兼首席 AI 官 - Change Healthcare


CD_2018_Primary_Logo_w_TM

ClearDATA 的创新解决方案和服务平台可保护客户免受数据隐私风险的影响,改善其数据管理,并扩展其医疗保健 IT 基础设施,从而使业界能够专注于通过改善医疗保健服务来逐日改善医疗保健水平。

“很高兴看到 AWS 将由机器学习 Textract 支持的光学字符识别服务添加到符合 HIPAA 要求的服务列表中。付款方和提供商之间共享的许多医疗数据都被锁在基于图像的文件中,例如 PDF。医疗保健组织现在可以使用 Amazon Textract 服务从以前无法机器读取的文件中提取医疗数据,而不必手动处理此类数据。这提供一个机会,可将这些数据与其电子健康记录,或诸如 Amazon Comprehend Medical 之类的其他可识别数据集中受保护健康信息的云技术相集成。对于使用这些新兴技术来改善数据访问、获得更好的见解、降低成本以及改善患者和会员体验,这是充满希望又切实的一步。”

Matt Ferrari,首席技术官 - ClearDATA

Product-Page_Standard-Icons_01_Product-Features_SqInk
查看 Amazon Textract 的功能

发现更多 Amazon Textract 的功能。

了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建

在 AWS 管理控制台中,使用 Amazon Textract 开始构建。

注册