在本教程中,您将了解如何使用 Amazon Textract 从文档中提取文本和结构化数据。
Amazon Textract 是一项完全托管的机器学习服务,可以从扫描的文档中自动提取文本和数据。它不只是简单的光学字符识别 (OCR),而是可以识别、理解和提取表单和表格中的数据。如今,许多企业都需要通过手动数据输入或者简单的 OCR 软件从扫描的文档(如 PDF、表格和表单)中提取数据。前一种方式速度慢、成本高并容易出错,后一种方式需要手动配置,每次表单更改时都需要更新配置才能使用。为了消除这些手动流程,Textract 使用机器学习来即时读取和处理任何类型的文档,并且可以精确地提取文本、表单、表格和其他数据,不需要任何手动工作或自定义代码。
在本教程中,您将学习如何完成以下各项:
- 登录 Amazon Textract
- 从示例文档中提取原始文本、表单和表格单元格
- 下载结果
- 了解人工审核
使用此教程需要拥有 AWS 账户。如果您还没有 AWS 账户,请注册 AWS。您在本教程中创建的资源符合 AWS 免费套餐条件。
关于本教程 | |
---|---|
时间 | 10 分钟 |
费用 | AWS 免费套餐资格 |
使用案例 | Machine Learning |
产品 | Amazon Textract |
受众 | 开发人员 |
级别 | 新手 |
上次更新日期 | 2020 年 9 月 25 日 |
第 2 步:从文档中提取原始文本
完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取原始文本。
注意:如需了解更多信息,请参阅 Amazon Textract 文档中的分析文本。
a.在 Analyze document(分析文档)屏幕的右侧窗格中,选择 Raw text(原始文本),从内置的示例文档中提取原始文本 (OCR) 输出。
b.在右侧窗格中,选择 Words(文字)显示从文档中提取到的文字。
d.在右侧窗格中,选择 Lines(直线)显示从文档中提取到的直线。
第 3 步:从示例文档中提取表单数据
完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取表单(键值)数据。
注意:如需了解更多信息,请参阅 Amazon Textract 文档中的表单数据(键值对)。
第 4 步:从示例文档中提取表格数据
完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取表格数据。
注意:如需了解更多信息,请参阅 Amazon Textract 文档中的表格。
第 5 步:从 Amazon Textract 下载结果
您可以下载结果并选择多种格式来查看结果,包括原始 JSON、文本,以及表单和表格的 CSV 文件。
完成以下步骤,从 Amazon Textract 下载结果。
注意:如需了解更多信息,请参阅 Amazon Textract。
将以 zip 文件的格式下载结果。您可以选择多种格式,包括原始 JSON、文本,以及表单和表格的 CSV 文件。以下图片是从文档中提取的所有键值的示例输出。
第 6 步.了解人工审核
Amazon Textract 直接与 Amazon Augmented AI (Amazon A2I) 集成,让您可以对文档中提取出的文本轻松执行人工审核。
注意:如需了解更多信息,请参阅 Amazon Textract 的 Amazon Augmented AI。
建议的后续步骤
了解更多
参阅 Amazon Textract 开发人员指南,了解有关 Amazon Textract 的更多信息。
了解有关 Amazon Textract 功能的更多信息
请参阅 Amazon Textract 页面,了解更多信息。