Amazon Textract 是一种机器学习 (ML) 服务,它利用光学字符识别 (OCR) 从扫描的文档(如 PDF)中自动提取文本、手写内容和数据。使用 Amazon Textract 时,您只需按实际用量付费。既没有最低费用,也无需预先承诺。Amazon Textract 仅对处理的页面收费,无论您是提取文本、带表格的文本还是表单数据。有关页面和可接受的 Amazon Textract 用途,请参阅常见问题

Amazon Textract 有四种不同的 API:Detect Document Text API、Analyze Document API、Analyze Expense API 和 Analyze ID API。

Detect Document Text API:使用光学字符识别 (OCR) 技术来提取文档中的文本和手写内容。在美国西部(俄勒冈)区域,前 100 万页的价格为每页 0.0015 USD,超过 100 万页后为每页 0.0006 USD。

Analyze Document API 有两种功能,即表单和表格,分别采用不同的定价等级。

  • 表单的 Analyze Document API 使用 OCR 技术从文档中提取文本和手写内容。它还提取诸如键值对(如,“名字”和关联值:“Jane Smith”)之类的数据。在美国西部(俄勒冈)区域,前 100 万页的价格为每页 0.05 USD,超过 100 万页后为每页 0.04 USD。
  • 表格的 Analyze Document API 使用 OCR 技术从文档中提取文本和手写内容。它还提取按列和行组织的表格数据。在美国西部(俄勒冈)区域,前 100 万页的价格为每页 0.015 USD,超过 100 万页后为每页 0.01 USD。
 
Analyze Expense API从发票和收据中提取数据,例如发票 ID、发票编号、发票#和关联的 12345 值。Amazon Textract 可将这些术语识别为发票 ID 并将对应的值识别为 12345,使您可对常见字段进行标准分类。在美国西部(俄勒冈)区域,前 100 万页的价格为每页 0.01 USD,超过 100 万页后为每页 0.008 USD。
 
Analyze ID API 使用 ML 了解身份证件的上下文,如美国护照、驾驶执照和其他 ID。您可以自动提取特定信息,如过期日期和出生日期,以及智能识别和提取隐含信息,如姓名和地址。
 

免费套餐

作为 AWS 免费套餐的一部分,您可以免费开始使用 Amazon Textract。免费套餐持续三个月,新 AWS 客户每月最多可以使用 Detect Document Text API 分析 1000 页文档,并且最多可以使用 Analyze Document API、nalyze Expense API 或 Analyze ID API 分析 100 页文档。

Amazon Textract API 定价

Detect Document Text API (OCR)


使用 Analyze Document API 分析含表格的页面

*表格是以列和行的可见方式组织的相关数据的集合。例如,跟踪工厂每日产量的运行日志。


使用 Analyze Document API 分析含表单的页面

*表单是指同一页面的独立键值的集合(例如 W2)。


使用 Analyze Document API 分析含表格和表单的页面


适用于发票和收据的 Analyze Expense API

Analyze ID API 

超出免费套餐后的定价示例

定价示例 1 - Detect Document Text API

假设您希望使用 Detect Document Text API 从 100000 页研究报告中提取文本。在美国西部(俄勒冈)区域的每页价格为前 100 万页 0.0015 USD,因此处理 100000 页的每月总费用将为 150 USD。

处理的总页数 = 100000

每页价格 = 0.0015 USD

每月总费用 = 0.0015 USD * 1000000 = 150 USD

定价示例 2 - Detect Document Text API

假设您希望使用 Detect Document Text API 从 200 万页研究报告中提取文本。在美国西部(俄勒冈)区域的每页价格为前 100 万页 0.0015 USD,超过 100 万页后为 0.0006 USD,因此处理 200 万页的总费用将为 2100 USD。

处理的总页数 = 2000000

每页的价格 = 前 100 万页 0.0015 USD 和 100 万页以后每页 0.0006 USD

每月总费用 = 0.0015 USD * 1000000 + 0.0006 USD * 1000000 = 1500 USD + 600 USD = 2100 USD

定价示例 3 - Analyze Document API – 表单和表格

假设您希望使用 Analyze Document API 从 5000 页的税务表单中提取文本和结构化的数据。 在美国西部(俄勒冈)区域的价格为 100 万含表格的页面每页 0.015 USD,含表单的页面每页 0.05 USD,总费计 325 USD。请参阅下面的计算:

处理的总页面数 = 5000 页

含表格的页面价格 = 0.015 USD

含表单(键-值对)的页面价格 = 0.05 USD

总费用 = 0.015 USD*5000 + 0.05 USD *5000 = 75 USD + 250 USD = 325 USD

定价示例 4 - Analyze Document API – 表单和表格

假设您想使用 Analyze Document API 从 200 万页纳税申报表中提取文本、表单和表格。在美国西部(俄勒冈)区域的价格为 100 万含表格的页面每页 0.015 USD,超过 100 万页后为每页 0.01 USD。含表单的页面价格为前 100 万页每页 0.05 USD,100 万页之后每页 0.04 USD。总费用将为 115000 USD。

处理的总页数 = 2000000 页

含表单(键-值对)的页面价格 = 前 100 万页每页 0.05 USD,接下来 100 万页每页 0.04 USD

总费用 = 0.015 USD*1000000 + 0.01 USD*1000000 + 0.05 USD*1000000 + 0.04 USD*1000000 = 15000 USD + 10000 USD + 50000 + 40000 = 115000 USD

定价示例 5 - Analyze Expense API

假设您希望使用 Analyze Expense API 从 100,000 张发票中提取数据。在美国西部(俄勒冈)区域的价格为 100 万页面每页 0.01 USD,您需要处理 100000 张发票。总费用将为 1000 USD。

处理的总页数 = 100000

每页价格 = 0.01 USD

每月总费用 = 0.01 USD * 100000 = 1000 USD

定价示例 6 - Analyze Expense API

假设您希望使用 Analyze Expense API 从 1500000 张发票中提取数据。在美国西部(俄勒冈)区域的价格为 100 万页面每页 0.01 USD,超过 100 万页后为每页 0.008 USD。总费用将为 14000 USD。

处理的总页数 = 1500000

每页价格 = 前 100 万页 0.01 USD,接下来 500000 页 0.008 USD

每月总费用 = 0.01 USD * 1000000 + 0.008 USD * 500000 = 14000 USD

定价示例 7 - Analyze ID API

假设您希望使用 Analyze ID API 从 100000 个身份文档中提取信息。在美国西部(俄勒冈)区域的价格为 10 万页每页 0.025 USD,超过 10 万页后为每页 0.025 USD。总费用将为 2,500 USD。

处理的总页面数 = 100000

每页价格 = 0.025 USD

每月总费用 = 0.025 USD * 100,000 = 2,500 USD

定价示例 8 - Analyze ID API

假设您希望使用 Analyze ID API 从 600,000 个身份文档中提取信息。在美国西部(俄勒冈)区域的价格为 10 万页面每页 0.025 USD,超过 10 万页后为每页 0.01 USD。总费用将为 17,500 USD。

处理的总页数 = 600,000

每页价格 = 前 10 万页 0.025 USD,接下来 500000 页 0.01 USD

每月总费用 = 0.025 USD * 100000 + 0.01 USD * 500000 = 7,500 USD

Standard Product Icons (Features) Squid Ink
查看 Amazon Textract 常见问题

了解更多有关 Amazon Textract 如何从几乎任何文档中提取文本和结构化数据的信息。

了解更多 
Sign up for a free account
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Standard Product Icons (Start Building) Squid Ink
开始在控制台中构建

在 AWS 管理控制台中,使用 Amazon Textract 开始构建。

注册