提取文本和结构化数据

通过 Amazon Textract

在本教程中,您将了解如何使用 Amazon Textract 从文档中提取文本和结构化数据。 

Amazon Textract 是一项完全托管的机器学习服务,可以从扫描的文档中自动提取文本和数据。它不只是简单的光学字符识别 (OCR),而是可以识别、理解和提取表单和表格中的数据。如今,许多企业都需要通过手动数据输入或者简单的 OCR 软件从扫描的文档(如 PDF、表格和表单)中提取数据。前一种方式速度慢、成本高并容易出错,后一种方式需要手动配置,每次表单更改时都需要更新配置才能使用。为了消除这些手动流程,Textract 使用机器学习来即时读取和处理任何类型的文档,并且可以精确地提取文本、表单、表格和其他数据,不需要任何手动工作或自定义代码。

在本教程中,您将学习如何完成以下各项:

  1. 登录 Amazon Textract
  2. 从示例文档中提取原始文本、表单和表格单元格
  3. 下载结果
  4. 了解人工审核

使用此教程需要拥有 AWS 账户。如果您还没有 AWS 账户,请注册 AWS。您在本教程中创建的资源符合 AWS 免费套餐条件。

关于本教程
时间 10 分钟                                       
费用 AWS 免费套餐资格
使用案例 Machine Learning
产品 Amazon Textract
受众 开发人员
级别 新手
上次更新日期 2020 年 9 月 25 日

第 1 步:登录 Amazon Textract

本教程中创建和使用的资源符合 AWS 免费套餐条件。


a.登录 AWS 管理控制台。如果您还没有 AWS 账户,请先注册。 

已拥有账户? 登录


b.打开 Amazon Textract 控制台,选择 Try Amazon Textract(试用 Amazon Textract)。

系统会打开 Amazon Textract,并带有一个用于分析的示例文档。

注意:如果希望上传您自己的文档来提取实体,则选择 Upload document(上传文档)。支持的文档类型包括 PNG、JPEG 和 PDF 格式。  

第 2 步:从文档中提取原始文本

完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取原始文本。 

注意:如需了解更多信息,请参阅 Amazon Textract 文档中的分析文本


a.在 Analyze document(分析文档)屏幕的右侧窗格中,选择 Raw text(原始文本),从内置的示例文档中提取原始文本 (OCR) 输出。


b.在右侧窗格中,选择 Words(文字)显示从文档中提取到的文字。


c.在右侧窗格中,选择一个字。选中的字会突出显示在左侧窗格中的示例文档中。这样可以充分利用 Amazon Textract 的边界框功能。

d.在右侧窗格中,选择 Lines(直线)显示从文档中提取到的直线。


e.在右侧窗格中,选择一条直线。选中的直线会突出显示在左侧窗格中的示例文档中。这样可以充分利用 Amazon Textract 的边界框功能。

第 3 步:从示例文档中提取表单数据

完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取表单(键值)数据。

注意:如需了解更多信息,请参阅 Amazon Textract 文档中的表单数据(键值对)


a.在 Analyze document(分析文档)屏幕的右侧窗格中,选择 Forms(表单),从示例文档中提取表单(键值)输出。

b.在右侧窗格中,选择一对键值。选中的元素会突出显示在左侧窗格中的示例文档中。这样可以充分利用 Amazon Textract 的边界框功能来展示示例文档中键值元素的放置。

第 4 步:从示例文档中提取表格数据

完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取表格数据。

注意:如需了解更多信息,请参阅 Amazon Textract 文档中的表格


a.在 Analyze document(分析文档)屏幕的右侧窗格中,选择 Tables(表格),从示例文档中提取表格输出。

b.在右侧窗格中,选择一个单元格。选中的单元格会突出显示在左侧窗格中的示例文档中。这样可以充分利用 Amazon Textract 的边界框功能来展示示例文档中单元格的放置。

第 5 步:从 Amazon Textract 下载结果

您可以下载结果并选择多种格式来查看结果,包括原始 JSON、文本,以及表单和表格的 CSV 文件。

完成以下步骤,从 Amazon Textract 下载结果。

注意:如需了解更多信息,请参阅 Amazon Textract


Analyze document(分析文档)屏幕的右侧窗格中,选择 Download results(下载结果)。

将以 zip 文件的格式下载结果。您可以选择多种格式,包括原始 JSON、文本,以及表单和表格的 CSV 文件。以下图片是从文档中提取的所有键值的示例输出。

第 6 步.了解人工审核

Amazon Textract 直接与 Amazon Augmented AI (Amazon A2I) 集成,让您可以对文档中提取出的文本轻松执行人工审核。

注意:如需了解更多信息,请参阅 Amazon Textract 的 Amazon Augmented AI


Analyze document(分析文档)屏幕的右侧窗格中,选择 Human review(人工审核)了解有关 Amazon Augmented AI 的更多信息。
完成后,注销 Amazon Textract 控制台以结束本教程。

恭喜

您已经了解了如何使用 Amazon Textract 控制台,从扫描的文档中提取原始文本、表格和表单。

本教程对您是否有帮助?

了解更多

参阅 Amazon Textract 开发人员指南,了解有关 Amazon Textract 的更多信息。

了解有关 Amazon Textract 功能的更多信息

请参阅 Amazon Textract 页面,了解更多信息。