在本教程中,您将了解如何使用 Amazon Textract 从文档中提取文本和结构化数据。
Amazon Textract 是一项完全托管的机器学习服务,可以从扫描的文档中自动提取文本和数据。它不只是简单的光学字符识别 (OCR),而是可以识别、理解和提取表单和表格中的数据。如今,许多企业都需要通过手动数据输入或者简单的 OCR 软件从扫描的文档(如 PDF、表格和表单)中提取数据。前一种方式速度慢、成本高并容易出错,后一种方式需要手动配置,每次表单更改时都需要更新配置才能使用。为了消除这些手动流程,Textract 使用机器学习来即时读取和处理任何类型的文档,并且可以精确地提取文本、表单、表格和其他数据,不需要任何手动工作或自定义代码。
在本教程中,您将学习如何完成以下各项:
- 登录 Amazon Textract
- 从示例文档中提取原始文本、表单和表格单元格
- 下载结果
- 了解人工审核
使用此教程需要拥有 AWS 账户。如果您还没有 AWS 账户,请注册 AWS。您在本教程中创建的资源符合 AWS 免费套餐条件。
关于本教程 | |
---|---|
时间 | 10 分钟 |
费用 | AWS 免费套餐资格 |
使用案例 | Machine Learning |
产品 | Amazon Textract |
受众 | 开发人员 |
级别 | 新手 |
上次更新日期 | 2020 年 9 月 25 日 |
第 2 步:从文档中提取原始文本
完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取原始文本。
注意:如需了解更多信息,请参阅 Amazon Textract 文档中的分析文本。
a.在 Analyze document(分析文档)屏幕的右侧窗格中,选择 Raw text(原始文本),从内置的示例文档中提取原始文本 (OCR) 输出。
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-extract-raw-text.aa8487751853a7d33e693cbf9b8348c50c275e84.png)
b.在右侧窗格中,选择 Words(文字)显示从文档中提取到的文字。
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-extract-text-words.ff59e1dc620581bc84284a2bf6ed7000c66719d5.png)
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-extract-text-word-selection.25101ca1f32128a3059377b4a4e8e7e9bcc20af9.png)
d.在右侧窗格中,选择 Lines(直线)显示从文档中提取到的直线。
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-extract-text-lines.f41f2f580b19503fbfe4eeb4364c6ebd5c5a1cbe.png)
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-extract-text-line-selection.fd2cf3f52e2ef9193792e2216ca7b6a8330d7108.png)
第 3 步:从示例文档中提取表单数据
完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取表单(键值)数据。
注意:如需了解更多信息,请参阅 Amazon Textract 文档中的表单数据(键值对)。
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-extract-forms.c3a434233cbecbfe011b26e10eed2627826eccfe.png)
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-extract-forms-line-selection.14dbc1d2bfe2c79e6d82396e65d7ca178c9a4a48.png)
第 4 步:从示例文档中提取表格数据
完成以下步骤,使用 Amazon Textract 从内置的示例文档中提取表格数据。
注意:如需了解更多信息,请参阅 Amazon Textract 文档中的表格。
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-extract-tables.a15e26048f91b6a1a1edfbe49300fc01bffe2a0c.png)
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-cell-selection.543ba789996f31c9650012d12f493f5c605a9836.png)
第 5 步:从 Amazon Textract 下载结果
您可以下载结果并选择多种格式来查看结果,包括原始 JSON、文本,以及表单和表格的 CSV 文件。
完成以下步骤,从 Amazon Textract 下载结果。
注意:如需了解更多信息,请参阅 Amazon Textract。
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-download-results.68dab3a2584e604eebc18f8929987a1b3b04a9ff.png)
将以 zip 文件的格式下载结果。您可以选择多种格式,包括原始 JSON、文本,以及表单和表格的 CSV 文件。以下图片是从文档中提取的所有键值的示例输出。
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-keyvalues.9bfdfe44cac5855b95bc1b19e7c3a59c50fb4a8b.png)
第 6 步.了解人工审核
Amazon Textract 直接与 Amazon Augmented AI (Amazon A2I) 集成,让您可以对文档中提取出的文本轻松执行人工审核。
注意:如需了解更多信息,请参阅 Amazon Textract 的 Amazon Augmented AI。
![](https://d1.awsstatic.com/Getting%20Started/tutorials/tutorial-textract-human-review.14f729066301b9fa6fc6e4a97fc4038dee698337.png)
建议的后续步骤
了解更多
参阅 Amazon Textract 开发人员指南,了解有关 Amazon Textract 的更多信息。
了解有关 Amazon Textract 功能的更多信息
请参阅 Amazon Textract 页面,了解更多信息。