Amazon Textract

从几乎任何文档中轻松提取文本和数据
Amazon Textract 是一项完全托管的机器学习服务,可以从扫描的文档中自动提取文本和数据。它不只是简单的光学字符识别 (OCR),而是可以识别、理解和提取表单和表格中的数据。

如今,许多企业都需要通过手动数据输入或者简单的 OCR 软件从扫描的文档(如 PDF、表格和表单)中提取数据。前一种方式速度慢、成本高并容易出错,后一种方式需要手动配置,每次表单更改时都需要更新配置才能使用。
 
为了消除这些手动流程,Textract 使用机器学习来即时读取和处理任何类型的文档,并且可以精确地提取文本、表单、表格和其他数据,不需要任何手动工作或自定义代码。

借助 Textract,您可以快速自动执行文档处理工作,几小时即可处理数百万个文档页面。获取信息之后,您可以在业务应用程序中根据这些信息执行操作,以便启动贷款申请、税务文件、报名表格或医疗索赔处理等工作的后续步骤。此外,您还可以创建智能搜索索引,或者使用 Amazon Augmented AI 增加人工审核环节,以便审核有细微差别的数据或敏感数据。

优势

快速准确地提取结构化数据和非结构化数据

Amazon Textract 使用人工智能像人一样“读取”文档,不仅可以提取文本,还可以提取表格、表单和其他结构化数据,无需配置、训练或自定义代码。Amazon Textract 可以自动检测文档的布局和页面上的关键元素,了解任何嵌入式表单或表格中的数据关系,并提取附带完整上下文的所有内容。

不只是简单的光学字符识别 (OCR)

Amazon Textract 使用 OCR 技术来识别表单标签和值并从表格中提取信息,不会损坏数据结构并且成本低廉。您只需按实际使用量付费,不存在预付费用承诺,也不需要签订长期合同。 

安全性与合规性

Textract 可用于受服务组织控制 (SOC) 合规性、国际标准化组织 (ISO) 合规性、PCI、HIPAA 和 GPDR 约束的工作负载。金融、医疗保健和其他行业的客户可以获得对保护其客户数据的安全流程和控制的洞察。Textract 还通过 AWS PrivateLink 支持 Amazon Virtual Private Cloud (Amazon VPC) 终端节点,允许客户从其 VPC 安全地发起对 Amazon Textract 的 API 调用,并避免使用公共互联网。

轻松实现人工审核

Amazon Rekognition 直接与 Amazon Augmented AI (Amazon A2I) 集成,让您可以对文档中提取出的文本轻松执行人工审核。您可以通过内置人工审核来管理需要人工判断并有细微差别的工作流或敏感工作流,从而取得高确信度的预测或对预测进行持续审计。

什么是 Amazon Textract (1:49)

使用案例

创建智能搜索索引

从文档中提取结构化数据并创建智能索引,可以快速搜索数百万份财务报表。例如,抵押贷款公司可以使用 Amazon Textract 在数小时内处理数百万个经过扫描的贷款申请,并在 Amazon Elasticsearch 中对提取的数据编制索引。这样有利于他们创建搜索体验,例如“搜索申请人姓名为 John Doe 的贷款申请”或“搜索利率为 2% 的合同”。

构建自动化文档处理工作流

Amazon Textract 可以提供自动处理表单所需的输入,而无需人工干预。例如,银行可以使用 Amazon Textract 自动处理贷款申请。文档中包含的信息可用于启动批准贷款所需的所有背景和信用检查,这样一来,客户可以立即获得申请结果,而不必等待几天进行人工审查和验证。

保持文档存档的符合性

由于 Amazon Textract 会自动识别数据类型和表单标签,因此很容易保持对信息控制要求的符合性。例如,通过自动识别需要保护的重要键值对,保险公司可以使用 Amazon Textract 来为可自动编辑个人身份信息 (PII) 的工作流提供信息,以供在存档索赔表单之前进行审查。

客户成功案例

change-healthcare-600x400

Change Healthcare 是一家领先的独立医疗技术公司,提供数据和分析驱动的解决方案,以改善美国医疗保健系统中的临床、财务和患者参与度结果。

“在 Change Healthcare,我们相信,通过改善财务和行政决策的及时性和质量,我们可以使所有人都能负担得起并能获得医疗保健。机器学习技术的强大功能可以从我们的数据中了解更多信息,从而实现这一目标。但是,释放这些信息的潜力通常很困难,因为它分别存储在一个个表格和表单中,而传统的光学字符识别无法对其进行分析。Amazon Textract 除处理文本之外,还具有检索结构化数据的能力,从而进一步提高了理解文档的能力。现在,随着该服务达到 HIPAA 的要求,我们将能够从数百万个文档中将信息解放出来,并为患者、付款方和提供商创造更多价值。”

Nick Giannasi,Change Healthcare 执行副总裁兼首席人工智能官


filevine-600x400

Filevine 是法律专业人员的运营核心,包括基于云的案例和事务管理、文档管理和深度报告分析。自从 2015 年启动以来,Filevine 一直专注于快速创新和屡获殊荣的设计,获得了独立评审网站的最高评级。

“Filevine 每天处理数百万个事务和案例文件。我们选择 Amazon Web Services 是因为我们希望为客户提供世界一流的文档搜索解决方案。Amazon Textract 快速、准确且可扩展,可以帮助 Filevine 满足全世界最大并且最复杂的法律机构的苛刻要求。通过 Filevine 和 Amazon,法律专业人员在海量文件中查找所需内容不再像是大海捞针,而是变得无比简单。”

Ryan Anderson,Filevine 首席执行官


CD_2018_Primary_Logo_w_TM

ClearDATA 的创新解决方案和服务平台可保护客户免受数据隐私风险的影响,改善其数据管理,并扩展其医疗保健 IT 基础设施,从而使业界能够专注于通过改善医疗保健服务来逐日改善医疗保健水平。

“很高兴看到 AWS 将由机器学习 Textract 支持的光学字符识别服务添加到符合 HIPAA 要求的服务列表中。付款方和提供商之间共享的许多医疗数据都被锁在基于图像的文件中,例如 PDF。医疗保健组织现在可以使用 Amazon Textract 服务从以前无法机器读取的文件中提取医疗数据,而不必手动处理此类数据。这提供一个机会,可将这些数据与其电子健康记录,或诸如 Amazon Comprehend Medical 之类的其他可识别数据集中受保护健康信息的云技术相集成。对于使用这些新兴技术来改善数据访问、获得更好的见解、降低成本以及改善患者和会员体验,这是充满希望又切实的一步。”

Matt Ferrari,首席技术官 - ClearDATA

Product-Page_Standard-Icons_01_Product-Features_SqInk
查看 Amazon Textract 的功能

发现更多 Amazon Textract 的功能。

了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建

在 AWS 管理控制台中,使用 Amazon Textract 开始构建。

注册