Amazon Comprehend は、自然言語処理、個人識別情報 (PII) 検出とリダクション、カスタム分類とエンティティ検出、トピックモデリングを提供し、生のテキストや、一部の API では PDF や Word などのドキュメントフォーマットを分析できる幅広いアプリケーションを可能にします。  

  • 自然言語処理: Amazon Comprehend API を使用して、エンティティ認識、感情分析、構文解析、キーフレーズ抽出、および言語検出により、自然言語からインサイトを抽出することができます。これらのリクエストは 100 文字を 1 ユニット (1 ユニット = 100 文字) として計算され、各リクエストにつき 3 ユニット (300 文字) の最低料金が発生します。
  • 個人識別情報 (PII): Detect PII API は、ドキュメント内の個人識別情報 (“PII”) エンティティの位置を特定します。この API はドキュメントの編集済バージョンを生成するために使用できます。Contains PII API はドキュメント内に PII が含まれているかどうかを判定します。これらのリクエストも、100 文字を 1 ユニット (1 ユニット = 100 文字) として計算され、各リクエストにつき 3 ユニット (300 文字) の最低料金が発生します。
  • カスタムコンプリヘンド: カスタム分類とエンティティ API により、カスタム NLP モデルをトレーニングして、テキストの分類と、カスタムエンティティの抽出が行えます。非同期推論リクエストは 100 文字を 1 ユニットとして計算され、各リクエストにつき 3 ユニット (300 文字) が最低料金となります。モデルトレーニング (秒単位で請求) については 1 時間に 3 USD、カスタムモデル管理には 1 か月に 0.50 USD が課金されます。同期カスタム分類およびエンティティ推論リクエストの場合、エンドポイントに適切なスループットをプロビジョニングします。エンドポイントを起動してから削除されるまで課金されます。
  • トピックモデリング: トピックモデリングでは、Amazon S3 に保存されたドキュメントのコレクションから、関連表現やトピックが特定されます。コレクション内の最も一般的なトピックを識別し、それらをグループに整理し、次にどのドキュメントがどのトピックに属しているかをマップします。課金はジョブで処理されるドキュメントの合計サイズに基づきます。最初の 100 MB は均一料金です。100 MB を超えると 1 MB ごとに課金されます。
  • AWS 料金計算ツールを使って、コストをお見積りいただけます。
1 か月のボリュームが、1 億ユニットを超える場合の料金については、お問い合わせください。
NLP リクエストは 100 文字ユニットでて計算され、各リクエストにつき 3 ユニット分 (300 文字) の最低料金が発生します。

Amazon Comprehend API では、構造化されていない生のテキストと、一部の API では PDF や Word ドキュメントなどの他のテキストファイルの両方を処理することができます。 

カスタム Comprehend

カスタムエンティティとカスタム分類
PDF*、Word、およびプレーンテキストドキュメントの非同期エンティティ認識の場合

推論リクエストは 100 文字を 1 ユニットとして計算され、各リクエストにつき 3 ユニット (300 文字) が最低料金となります。

非同期分類

推論リクエストは 100 文字を 1 ユニットとして計算され、各リクエストにつき 3 ユニット (300 文字) が最低料金となります。

同期分類とエンティティ認識

エンドポイントは、1 秒ごとに課金されます (最小課金時間は 60 秒)。エンドポイントを起動してから、ドキュメントが分析されていなくても、エンドポイントが削除されるまで、継続して課金されます。

1 つの推論ユニット (IU) は、管理対象エンドポイントで 100 文字/秒のスループットを提供します。追加の IU をプロビジョニングして、スループットを向上させることができます。各 IU について 0.0005 USD/秒が課金されます。

モデルトレーニングは 1 時間あたり 3 USD

*スキャンされた PDF ドキュメントからテキストを抽出するために、Amazon Textract Detect Document Text API が呼び出されます。

トピックモデリング

最初の 100 MB

100 MB を超える MB ごと

課金はトピックモデリングジョブで処理されるドキュメントの合計サイズに基づきます。最初の 100 MB は均一料金です。100 MB を超えると 1 MB ごとに課金されます。

無料利用枠

50,000 ユニットのテキスト (500 万文字)

9 つの API (キーフレーズ抽出、感情分析、エンティティ認識、言語検出、Detect PII、Contains PII、イベントの検出、構文解析、カスタムエンティティ、カスタム分類) ごとの 1 か月あたりの使用量です。起算日は、最初に Amazon Comprehend リクエストを実行した日です。

カスタム分類およびカスタムエンティティの場合、モデルトレーニング、モデル管理、および、エンドポイントでの無料利用枠はありません。

5 ジョブ、それぞれ最大 1 MB まで

トピックモデリングの場合

Amazon Comprehend の無料利用枠は、AWS の新規および既存のお客様の両方を対象としており、初回の Amazon Comprehend リクエストを行った日から 12 か月間ご利用いただけます。

Amazon Comprehend Medical の料金

Amazon Comprehend Medical では、実際に使用した分だけお支払いいただきます。処理したテキストの量に基づいて月額で課金されます。Amazon Comprehend Medical には、Medical Named Entity と Relationship Extraction (NERe) と Protected Health Information Data Extraction and Identification (PHId) の 2 つの API があります。

Medical NERe API は、エンティティ、エンティティの関係、エンティティの特質、および PHI を抽出します。データ保護のためにお客様が PHI のみを識別したい場合、PHId API を要求することができます。すべての API リクエストは 100 文字を 1 ユニットとして計算され、リクエストごとに 1 ユニット (100 文字) が最低料金となります。

Amazon Comprehend Medical 無料利用枠

Amazon Comprehend Medical では、任意の API のサービスを使用開始するときに、最初の 3 か月間に 25,000 単位 (250 万文字) のテキストを処理できる無料利用枠が提供されます。

Amazon Comprehend 料金の例

例 1 - お客様のコメントの分析

Amazon Comprehend を使用して、オンラインストアの顧客コメントを分析するアプリケーションを構築すると仮定します。10,000 人の顧客からそれぞれ 550 文字のコメントを受け取ります。サービスの利用は 2 年目に入っています。

請求総額の計算:

各リクエストのサイズ = 550 文字

リクエストあたりのユニット数 = 6

ユニット数合計: 10,000 (リクエスト) × 6 (ユニット/リクエスト) = 60,000

ユニットあたりの料金 = 0.0001 USD

合計コスト = [ユニット数] x [ユニットあたりのコスト] = 60,000 x 0.0001 USD = 6.00 USD


例 2 - トピックによるドキュメントのグループ化

合計サイズ 240 MB のリサーチドキュメントのセットをトピックごとに分類し、顧客の関心に合わせて適切なドキュメントを推奨したいとします。また、サービスの利用が 2 年目に入っているため、無料利用枠は利用できないと仮定します。

請求総額の計算:

処理されるメガバイト数合計 = 240

1 USD の均一料金が適用されるメガバイト数 = 100

0.004 USD/MB が課金されるメガバイト数 = 140 [240 - 100]

ジョブの合計コスト = 1.00 USD + [140 x 0.004 USD] = 1.00 USD + 0.56 USD = 1.56 USD


例 3 - カスタム分類 API を使用したお客様からのフィードバックの分類

ウェブサイトを介して寄せられる新規顧客フィードバックを自動的に整理するよう、分類子をトレーニングしたいとします。毎分 10 人の顧客がフィードバックを入力し、各フィードバックは 300 文字です。カスタムモデルのトレーニングには 1 時間かかり、このモデルを 1 か月間保持する予定です。したがって、その月において、モデルのトレーニングコストは 3 USD、モデルのストレージコストは 0.5 USD となります。また、サービスの利用が 2 年目に入っているため、無料利用枠は利用できないと仮定します。

フィードバックを非同期で分類するには、ドキュメントの文字数で支払います。リアルタイムで分類するには、ユースケースを処理するために十分なスループットを備えたエンドポイントをプロビジョニングし、エンドポイントが稼働している時間について支払います。 

非同期分類の推論コストの計算:

1 日あたりの各リクエストのサイズ = 4,320,000 文字 [300 文字 * 10 個のドキュメント * 1,440 分]

1 リクエストあたりのユニット数 = 43,200 ユニット [432,000 文字 ÷ 1 ユニットあたり 100 文字]

1 ユニットの料金 = 0.0005 USD

ユニットの合計推論コスト = 21.60 USD [43,200 ユニット x 0.0005 USD]

合計コスト = 25.10 USD [21.60 USD (推論) + 3 USD (モデルトレーニング) + 0.50 USD (モデルストレージ)]

同期分類の合計料金の計算:

まず、必要なスループットを計算してみましょう。毎分、それぞれ 300 文字の 10 個のドキュメントを分類しています。そのため、次のようになります。

50 文字/秒 [300 文字 x 10 個のドキュメント ÷ 60 秒]

したがって、推論ユニット (IU) を 1 つ使用してエンドポイントをプロビジョニングする必要があります。1 つの推論ユニット (IU) で、100 文字/秒のスループットを得ることができます。

1 IU の料金 = 0.0005 USD/秒

推論呼び出しの数に関係なく、リアルタイム分類エンドポイントをアクティブにしておく時間に応じてコストが発生します。

リアルタイム分類エンドポイントを 1 日につき 12 時間実行する場合:

合計推論コスト = 21.60 USD [0.0005 USD x 3600 秒 x 12 時間]

合計コスト = 25.10 USD [21.60 USD (推論) + 3 USD (モデルトレーニング) + 0.50 USD (モデルストレージ)]

プロビジョニングされたスループットとエンドポイントがアクティブになっている時間についてコストが発生することに注意してください。より多くのスループットをプロビジョニングする必要がある場合、料金は次のようになります。

2 IU の料金 = 0.001 USD/秒 [0.0005 USD x 2]

3 IU の料金 = 0.0015 USD/秒 [0.0005 USD x 3]


例 4 - 臨床文書からの医療機関の抽出

Amazon Comprehend Medical を使用するアプリケーションを構築して、データレイク中の臨床文書を分析すると仮定します。それぞれ 2,550 文字の 1,000 件の臨床文書があります。また、サービスの利用が 2 年目に入っているため、無料利用枠は利用できないと仮定します。

請求総額の計算:

各リクエストのサイズ = 2,550 文字

1 リクエストあたりのユニット数 = 26 ユニット [2,550 文字 ÷ 100 ユニットあたりの文字]

ユニット数合計: 1,000 (リクエスト) × 26 (ユニット / リクエスト) = 26,000

ユニットあたりの料金 = 0.01 USD

合計コスト = [ユニット数] x [ユニットあたりのコスト] = 26,000 x 0.01 USD = 260.00 USD


例 5 - カスタムエンティティ API を使用したお客様からのコメントの分類

ウェブサイトを介して寄せられるお客様からのフィードバックを自動的に抽出するよう、カスタムエンティティモデルをトレーニングしたいと仮定します。トレーニングジョブには 1.5 時間かかり、それぞれ 550 文字の 10,000 件のお客様からのフィードバックを分析します。このモデルを 1 か月間保持する予定です。また、サービスの利用が 2 年目に入っているため、無料利用枠は利用できないと仮定します。

請求総額の計算:

各リクエストのサイズ = 5,500,000 文字

1 リクエストあたりのユニット数 = 55,000 ユニット [5,500,000 文字 ÷ 100 ユニットあたりの文字]

1 ユニットの料金 = 0.0005 USD

ユニットの合計コスト = 27.5 USD [55,000 ユニット x 0.0005 USD]

モデルトレーニングの合計時間 = 1.5 時間

時間当たりの料金 = 3 USD

モデルトレーニングの合計コスト = 4.5 USD [1.5 時間 x 3 USD]

モデル管理の月数 = 1 か月

月次料金 = 0.50 USD 

モデル管理の合計コスト = 0.50 USD [1 か月 x 0.50 USD]

合計コスト = 37 USD [27.5 USD + 4.5 USD + 0.50 USD]


例 6 - イベント検出を使用した、イベントと関連情報の抽出

それぞれが 500 文字で記述された 3,000 個の記事から、3 つのイベントタイプを抽出する場合を想定します。また、このサービスは使用開始後 2 年めになるとします。

請求総額の計算:

処理される文字数 = 150 万文字 [3,000 記事 x 500 文字]

処理されるユニット数 = 45,000 ユニット [150 万 × 3 イベントタイプ ÷ 100 文字 (ユニット)]

1 ユニットあたりの料金 = 0.003 USD

ユニットの合計コスト = 135 USD [45,000 ユニット x 0.003 USD]


例 7 - Contains PII API を使用した、PII を含むドキュメントの特定

Amazon Comprehend を使用して、オンラインストアの顧客コメントを分析するアプリケーションを構築すると仮定します。受信される顧客コメント数は 1 万件で、それぞれ 550 文字で構成されています。また、必要な場合に保護されたロケーションに保存するため、PII が含まれているドキュメントを特定する必要があります。このサービスの使用は、開始後 2 年めになります。

請求総額の計算:

各リクエストのサイズ = 550 文字

リクエストあたりのユニット数 = 6

ユニット数合計 = 6万 [1 万リクエスト x 6 ユニット (リクエストあたり)]

1 ユニットあたりの料金 = 0.000002 USD

合計コスト = 0.12 USD [6 万ユニット x 0.000002 USD]

例 8 - Detect PII API を使用しての、PII を含むドキュメントの編集

Amazon Comprehend を使用して、オンラインストアの顧客コメントを分析するアプリケーションを構築すると仮定します。1 万件の顧客コメントを受信しており、それぞれが 550 文字で記述されています。また、ドキュメントをアーカイブする前に、編集済バージョンを生成する必要があります。このサービスの使用は、開始後 2 年めになります。

請求総額の計算:

各リクエストのサイズ = 550 文字

リクエストあたりのユニット数 = 6

ユニット数合計 = 6万 [1 万リクエスト x 6 ユニット (リクエストあたり)]

ユニットあたりの料金 = 0.0001 USD

合計コスト = 6 USD [6 万ユニット x 0.0001 USD]

例 9 - カスタムエンティティ API を使用した住宅ローンアプリケーションエンティティの抽出

住宅ローン申請書から 10 個のカスタムエンティティを抽出するために、カスタムエンティティ抽出モデルをトレーニングしたいとします。毎日 100 人の顧客が申請していて、それぞれが 1 ページあたり 2,500 文字を含む 10 ページのスキャンした PDF ドキュメントを提供しています。Detect Document Text API を使用してエンティティを抽出する前に、Amazon Textract を使用して、処理されたすべてのページからテキストを抽出する必要があるとします。カスタムモデルのトレーニングには 1 時間かかり、このモデルを 1 か月間保持する予定です。したがって、その月において、モデルトレーニングコストは 3 USD、モデルストレージコストは 0.50 USD となります。また、サービスの利用が 2 年目に入っているため、無料利用枠は利用できないと仮定します。カスタムエンティティを非同期で抽出するには、ドキュメントの文字数で支払います。リアルタイムでエンティティを抽出するには、ユースケースを処理するために十分なスループットを備えたエンドポイントをプロビジョニングし、エンドポイントが稼働している時間について支払います。

非同期分類の推論コストの計算:

1 日あたりの各リクエストのサイズ = 2,500,000 文字 [100 アプリケーション/日 * 10 個のドキュメント * 2,500 文字]

1 リクエストあたりのユニット数 = 25,000 ユニット [2,500,000 文字 ÷ 1 ユニットあたり 100 文字]

1 ユニットの料金 = 0.0005 USD

ユニットの合計推論コスト = 12.50 USD [25,000 ユニット x 0.0005 USD]

Detect Document Text API の Amazon Textract コスト = 1.50 USD [100 アプリケーション/日 * 10 ドキュメント * 1 ページあたりの料金 0.0015 USD、最大 1M ページまで]

合計コスト = 17.50 USD [12.50 USD (推論) + 1.50 USD (Textract) + 3 USD (モデルトレーニング) + 0.50 USD (モデルストレージ)]

 

Amazon Comprehend の機能の詳細

特徴ページにアクセスする
始める準備はできましたか?
サインアップ
ご不明な点がおありですか?
お問い合わせ