Amazon Comprehend 提供自然语言处理、个人身份信息 (PII) 检测和修订、自定义分类和实体检测以及主题建模,以支持可分析原始文本的广泛应用程序,并且还使用一些 API 提供 PDF 和 Word 之类的文档格式。  

  • 自然语言处理:适用于实体识别、情绪分析、语法分析、关键短语提取和语言检测的 Amazon Comprehend API 可用于从自然语言文本中提取见解。这些请求以 100 个字符为单位(1 单位 = 100 个字符)进行计算,每个请求最低按 3 个单位(300 个字符)收费。
  • 个人身份信息 (PII):检测 PII API 可以查找文档中选定的个人识别信息(以下简称“PII”)实体的位置,并可用于创建修订版文档。包含 PII API 会告知您文档是否包含选定的 PII。这些请求也以 100 个字符为单位(1 单位 = 100 个字符)进行计算,每个请求最低按 3 个单位(300 个字符)收费。
  • 自定义 Comprehend:自定义分类和实体 API 可以训练自定义 NLP 模型以对文本进行分类并提取自定义实体。异步推理请求以 100 个字符为单位进行计算,每个请求最低按 3 个单位(300 个字符)收费。您需要为模型训练支付费用,每小时 3 USD(按秒计费),并需要为自定义模型管理支付费用,每月 0.50 USD。对于同步自定义分类和实体推理请求,您要预置一个具有适当吞吐量的终端节点。从您启动您的终端节点到它被删除,您需要支付此段时间的费用。
  • 主题建模:主题建模可从存储在 Amazon S3 的文档集合中识别相关术语或主题。它会识别集合中最常见的主题,并按组整理,然后将文档映射到相应主题。您需要基于每个作业处理的文档总大小支付费用。前 100 MB 按统一费率收费。超过 100MB,按 MB 收费。
  • 您可以使用 AWS 定价计算器估算成本。
对于每月超过 1 亿单位的量,请联系我们以了解定价。
NLP 请求以 100 个字符为单位进行计算,每个请求最低按 3 个单位(300 个字符)收费。

使用 Amazon Comprehend API,您可以同时处理非结构化、原始文本,使用一些 API,您可以处理 PDF 和 Word 文档之类的其他文本文件。 

自定义 Comprehend

自定义实体和分类
对于 PDF*、Word 和纯文本文档的异步实体识别

推理请求以 100 个字符为单位进行计算,每个请求最低按 3 个单位(300 个字符)收费。

对于异步分类

推理请求以 100 个字符为单位进行计算,每个请求最低按 3 个单位(300 个字符)收费。

对于同步分类和实体识别

终端节点按每秒的增量计费,最少为 60 秒。从您启动终端节点时起,直到它被删除,即使未分析文档也会持续产生费用。

一个推理单位 (IU) 会在您的托管终端节点上提供每秒 100 个字符的吞吐量。您可以预置额外 IU,以获得更多吞吐量。每个 IU 每秒将产生 0.0005 USD 的费用。

对于模型训练,每小时 3 USD

*要从经过扫描的 PDF 文档中提取文本,调用 Amazon Textract Detect Document Text API

主题建模

对于前 100MB

对于超过 100MB 的每 MB

您需要基于每个主题建模作业处理的文档总大小支付费用。前 100 MB 按统一费率收费。超过 100MB,按 MB 收费。

免费套餐

5 万个单位的文本(5 百万个字符)

对于每月的 9 个 API(关键短语提取、情绪分析、实体识别、语言检测、检测 PII、包含 PII、事件检测、语法分析、自定义实体和自定义分类),从发出第一个 Amazon Comprehend 请求之日开始。

对于自定义分类和自定义实体,模型训练、模型管理和终端节点没有免费套餐。

5 个作业,每个最多 1MB

对于主题建模

新客户和现有 AWS 客户都可以使用 Amazon Comprehend 免费套餐,时长为 12 个月,从发出第一个 Amazon Comprehend 请求之日开始。

Amazon Comprehend Medical 定价

使用 Amazon Comprehend Medical,您只需为实际使用量付费。您需要根据处理的文本数量按月支付费用。Amazon Comprehend Medical 提供了两个 API:医学具名实体和关系提取 (NERe) 以及受保护健康信息数据提取和识别 (PHId)。

医学 NERe API 可提取实体、实体关系、实体特质和 PHI 信息。如果客户只需要识别 PHI 以保护数据,则可以请求 PHId API。所有 API 请求以 100 个字符为单位进行计算,每个请求最低按 1 个单位(100 个字符)收费。

Amazon Comprehend Medical 免费套餐

Amazon Comprehend Medical 提供的免费套餐涵盖您开始将该服务用于任何 API 的前三个月内的 25000 个文本单位(250 万个字符)。

Amazon Comprehend 定价示例

示例 1 – 分析客户评论

假设您使用 Amazon Comprehend 构建了一个应用程序,用来分析客户在您的在线商店中的评论。您收到了 10,000 条客户评论,每条 550 个字符,这是您第二年使用该服务。

费用合计:

每个请求的大小 = 550 个字符

每个请求的单位数 = 6

单位合计:10,000 (请求数) x 6 (每个请求的单位数) = 60,000

每个单位的价格 = 0.0001 USD

总费用 = [单位数] x [每单位成本] = 60,000 x 0.0001 USD = 6.00 USD


示例 2 – 按主题分类文档

假设您有一组总大小为 240 MB 的研究文档,您想按主题分类,并基于客户的兴趣领域推荐文档。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。

费用合计:

处理的兆字节总数 = 240

以 1 USD 的统一费率计费的兆字节数 = 100

以 0.004 USD/MB 计费的兆字节数 = 140 [240-100]

作业总费用 = 1.00 USD + [140 x 0.004 USD] = 1.00 USD + 0.56 USD = 1.56 USD


示例 3 – 使用自定义分类 API 对客户反馈进行分类

假设您想训练一个分类器来自动整理您的网站中新的客户反馈。每分钟有 10 个客户输入反馈,每段反馈有 300 个字符。训练自定义模型需要 1 小时,您打算让这个模型运行一个月。那么,当月的模型训练费用将为 3 USD,模型存储成本为 0.5 USD。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。

要对反馈进行异步分类,您要按照文档中的字符数量付费。要进行实时分类,您要预置具有足够吞吐量的终端节点来处理您的使用案例,并且为终端节点的运行时间付费。 

异步分类的推理成本计算:

每天每个请求的大小 = 4,320,000 个字符 [300 个字符 * 10 个文档 * 1,440 分钟]

每个请求的单位数 = 43,200 个单位 [432,000 个字符 ÷ 每单位 100 个字符]

每个单位的价格 = 0.0005 USD

单位的总推理成本 = 21.60 USD [43,200 个单位 x 0.0005 USD]

总成本 = 25.10 USD [21.60 USD 推理 + 3 USD 模型训练 + 0.50 USD 模型存储]

同步分类的总费用计算:

首先,我们来计算所需的吞吐量。我们会在每分钟分类 10 个文档,每个文档有 300 个字符。也就是:

每秒 50 个字符 [300 个字符 x 10 个文档 ÷ 60 秒]

因此,您将需要预置一个具有 1 个推理单位 (IU) 的终端节点,它将提供每秒 100 个字符的吞吐量。

1 个 IU 的价格 = 每秒 0.0005 USD

您要支付的费用取决于您要在多长时间内保持您的实时分类终端节点处于活跃状态,而不管发起多少次推理调用。

如果您每天要运行实时分类终端节点 12 个小时:

总推理成本 = 21.60 USD [0.0005 USD x 3600 秒 x 12 个小时]

总成本 = 25.10 USD [21.60 USD 推理 + 3 USD 模型训练 + 0.50 USD 模型存储]

请注意,您要为所预置的吞吐量以及终端节点处于活跃状态的时间付费。如果您需要预置更多吞吐量,价格为:

2 个 IU 的价格 = 每秒 0.001 USD [0.0005 USD x 2]

3 个 IU 的价格 = 每秒 0.0015 USD [0.0005 USD x 3]


示例 4 — 从临床文档中提取医学实体

假设您使用 Amazon Comprehend Medical 构建了一个应用程序来分析数据湖中的临床文档。您拥有 1000 份临床文档,每份文档有 2550 个字符。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。

费用合计:

每个请求的大小 = 2550 个字符

每个请求的单位数 = 26 个单位 [2,550 个字符 ÷ 每单位 100 个字符]

单位合计:1,000 (请求数) x 26 (每个请求的单位数) = 26,000

每个单位的价格 = 0.01 USD

总费用 = [单位数] x [每单位成本] = 26,000 x 0.01 USD = 260.00 USD


示例 5 – 使用自定义实体 API 对客户评论进行分析

假设您想训练一个自定义实体模型,以从您的网站中新的客户反馈自动提取自定义文字。培训工作需要 1.5 小时,您可以分析 10000 条客户反馈,每个反馈 550 个字符。您打算让这个模型运行一个月。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。

费用合计:

每个请求的大小 = 5,500,000 个字符

每个请求的单位数 = 55,000 个单位 [5,500,000 个字符 ÷ 每单位 100 个字符]

每个单位的价格 = 0.0005 USD

单位的总费用 = 27.5 USD [55,000 个单位 x 0.0005 USD]

模型训练的总用时 = 1.5 小时

每小时的价格 = 3 USD

模型训练的总费用 = 4.5 USD [1.5 小时 x 3 USD]

模型管理的月份数 = 1 个月

每月的价格 = 0.50 USD 

模型管理的总费用 = 0.50 USD [1 个月 x 0.50 USD]

总成本 = 37 USD [27.5 USD + 4.5 USD + 0.50 USD]


示例 6 – 使用事件检测提取事件及相关信息

假设您要从 3000 篇文章(每篇文中 500 个字符)中提取 3 种事件类型,而您正处于使用该服务的第二年。

费用合计:

处理的字符数 = 1500000 个字符 [3000 篇文章 x 500 个字符]

处理的单位数 = 45000 个单位 [1500000 x 3 个事件类型 ÷ 100 个字符/单位]

每个单位的价格 = 0.003 USD

单位的总费用 = 135 USD [45000 个单位 x 0.003 USD]


示例 7 – 使用包含 PII API 通过 PII 来识别文档

假设您使用 Amazon Comprehend 构建了一个应用程序,用来分析客户在您的在线商店中的评论。您收到了 10000 条客户评论(每条评论 550 个字符),需要确定哪些文档中包含 PII,以便可以将它们存储在安全的位置。假设目前是您使用该服务的第二年。

费用合计:

每个请求的大小 = 550 个字符

每个请求的单位数 = 6

单位合计 = 60000 [10000 个请求数 x 6 个单位/请求]

每个单位的价格 = 0.000002 USD

总费用 = 0.12 USD [60000 个单位 x 0.000002 USD]

示例 8 – 使用检测 PII API 修订文档中的 PII

假设您使用 Amazon Comprehend 构建了一个应用程序,用来分析客户在您的在线商店中的评论。您收到了 10000 条客户评论(每条评论 550 个字符),需要在对文档进行存档之前,创建修订版文档。假设目前是您使用该服务的第二年。

费用合计:

每个请求的大小 = 550 个字符

每个请求的单位数 = 6

单位合计 = 60000 [10000 个请求数 x 6 个单位/请求]

每个单位的价格 = 0.0001 USD

总费用 = 6 USD [60000 个单位 x 0.0001 USD]

示例 9 – 使用自定义实体 API 提取抵押贷款申请实体

假设您想要训练一个自定义实体提取模型,以从抵押贷款申请中提取 10 个自定义实体。每天有一百位客户申请,每位客户提供 10 页的扫描 PDF 文档,其中每页包含 2500 个字符。使用 Amazon Textract 时,让我们假设在使用 Detect Document Text API 提取实体之前,我们需要从每个处理过的页面中提取文本。训练自定义模型需要 1 小时,您打算让这个模型运行一个月。那么,当月的模型训练费用将为 3 USD,模型存储成本为 0.50 USD。同样假设这是您第二年使用此服务,没有资格享受免费套餐产品。要异步提取自定义实体,您要按照文档中的字符数量付费。要实时提取实体,您要预置具有足够吞吐量的终端节点来处理您的使用案例,并且为终端节点的运行时间付费。

异步分类的推理成本计算:

每天每个请求的大小 = 2500000 个字符 [100 个申请/天 * 10 个文档 * 2500 个字符]

每个请求的单位数 = 25000 个单位 [2500000 个字符 ÷ 每单位 100 个字符]

每个单位的价格 = 0.0005 USD

单位的总推理成本 = 12.50 USD [25000 个单位 x 0.0005 USD]

Detect Document Text API 的 Amazon Textract 成本 = 1.50 USD [100 个申请/天 * 10 个文档 * 每页 0.0015 USD 的价格,最多 100 万页]

总成本 = 17.50 USD [12.50 USD 推理成本 + 1.50 USD Textract + 3 USD 模型训练 + 0.50 USD 模型存储]

 

详细了解 Amazon Comprehend 的功能

访问功能页面
准备好开始使用了吗?
注册
还有更多问题?
联系我们