Amazon Textract は、スキャンしたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出する機械学習 (ML) サービスです。これは、単純な光学文字認識 (OCR) のレベルにとどまらず、フォームやラベルからデータを識別、理解、および抽出します。Amazon Textract では、使用した分のみ料金が発生します。最低料金や前払いの義務はありません。Amazon Textract は、テキスト、表付きテキスト、フォームデータ、クエリの抽出、請求書や身分証明書の処理など、いずれの場合でも、処理されたページに対してのみ課金されます。 ページおよび Amazon Textract の利用規約の詳細についてはよくある質問をご覧ください。

Amazon Textract には、Detect Document Text API、Analyze Document API、Analyze Expense API、Analyze ID API の 4 つの異なる API があります。

Detect Document Text API は、OCR テクノロジーを使用して、ドキュメントからテキストと手書き文字を抽出します。

Analyze Document API は、フォーム、テーブル、クエリ の 3 つの機能を備えています。お客様はフォーム、テーブル、クエリを自由に組み合わせて呼び出すことができる柔軟性を持っています。

  • Analyze Document API for Forms は、キーと値のペア (「First Name」と関連する値、例えば「Jane Smith」) のようなデータを抽出します。また、OCR テクノロジーを使用して、ドキュメントからすべてのテキストと手書き文字を抽出します。
  • Analyze Document API for Tables は、列や行で構成された表形式、または表のデータを抽出します。また、OCR テクノロジーを使用して、ドキュメントからすべてのテキストと手書き文字を抽出します。
  • Analyze Document API for Queries は、ドキュメントから必要な情報を指定し (例えば、「顧客名は何か?」)、そのデータ (例えば、「Jane Doe」) を応答の一部として受信する柔軟性をお客様に提供します。ドキュメント内のデータの構造や、ドキュメントの異なるフォーマットやバージョン間でのデータのレイアウトのバリエーションを気にする必要はありません。また、OCR テクノロジーを使用して、ドキュメントからすべてのテキストと手書き文字を抽出します。
 
Analyze Expense API は、請求書 ID、請求書番号、請求書 #、関連する値 12345 などのデータを請求書と領収書から抽出します。Amazon Textract は、これらの様々な条件を請求書 ID として認識し、対応する値を 12345 として認識しますので、一般的なフィールドの標準的なタクソノミーを実現します。 
 
Analyze ID API は、機械学習を使用して、米国のパスポート、運転免許証、その他の ID などの身分証明書を理解します。有効期限や生年月日などの特定の情報を自動的に抽出できるだけでなく、名前や住所などの黙示的な情報をインテリジェントに識別して抽出することもできます。各 ID 画像は 1 ページとみなされます。
 

無料利用枠

Amazon Textract は AWS 無料利用枠に含まれており、無料で使用開始できます。無料利用枠は 3 か月間有効で、新規に AWS をご利用になるお客様は、最大で次の分析が可能です。

Detect Document Text API: 1,000 ページ/月
Analyze Document API:

  • フォームまたはテーブルの機能を使用する場合、100 ページ/月
  • クエリ機能使用時は、さらに100 ページ/月新機能

Analyze Expense API: 100 ページ/月
Analyze ID API: 100 ページ/月

Amazon Textract API の料金

*Analyze Document API の出力には、選択した機能タイプに関係なく OCR が含まれます。
*Analyze Expense API と Analyze ID API の出力には OCR は含まれません。

無料利用枠を超えた料金の例

料金例 1 - Detect Document Text API

Detect Document Text API を使用して 100,000 ページの研究レポートからテキストを抽出するとします。米国西部 (オレゴン) リージョンでは、最初の 100 万ページの 1 ページあたりの料金は 0.0015 USD で、コストは 150 USD です。

処理する総ページ = 100,000

ページあたりの料金 = 0.0015 USD

月あたりの合計料金 = 0.0015 USD × 100,000 = 150 USD

料金例 2 - Detect Document Text API

Detect Document Text API を使用して 200 万ページの研究レポートからテキストを抽出するとしましょう。米国西部 (オレゴン) リージョンでの 1 ページあたりの料金は、最初の 100 万ページまでは 0.0015 USD、100 万ページ以降は 0.0006 USD となっており、200 万ページを処理する場合の総コストは 2,100 USD となります。

処理する総ページ = 2,000,000

ページあたりの料金 = 最初の 100 万ページまでは 0.0015 USD、100 万ページを超える分は 0.0006 USD

月あたりの合計料金 = 0.0015 USD × 1,000,000 + 0.0006 USD × 1,000,000 = 1,500 USD + 600 USD = 2,100 USD

料金例 3 - Analyze Document API – フォームと表

Analyze Document API を使用して 5,000 ページの納税申告書からテキストと構造化データを抽出するとしましょう。米国西部 (オレゴン) リージョンでは、100 万ページの 1 ページあたりの料金は、表ありの場合は 0.015 USD、フォームありの場合は 0.05 USDで、合計 325 USD です。

処理する総ページ = 5,000 ページ

表付きページの料金 = 0.015 USD

フォーム (キーと値のペア) を含むページの料金 = 0.05 USD

合計料金 = 0.015 USD × 5,000 + 0.05 USD × 5,000 = 75 USD + 250 USD = 325 USD

料金例 4 - Analyze Document API – フォームと表

Analyze Document API を使用して、200 万ページの納税申告書からテキスト、フォーム、表を抽出したいとします。米国西部 (オレゴン) リージョンでは、100 万ページの 1 ページあたりの料金は、表ありの場合は 0.015 USD、100 万ページ以降は 0.01 USD となります。フォーム付きのページは、100 万ページで 0.05 USD、100 万ページ以降は 1 ページあたり 0.04 USD となります。総コストは 115,000 USD となります。

処理する総ページ = 2,000,000 ページ

フォーム (キーと値のペア) を含むページの料金 = 最初の 100 万ページまでは 0.05 USD、次の 100 万ページは 0.04 USD

合計料金 = 0.015 USD × 1,000,000 + 0.01 USD × 1,000,000 + 0.05 USD × 1,000,000 + 0.04 USD × 1,000,000 = 15,000 USD + 10,000 USD + 50,000 + 40,000 = 115,000 USD

料金例 5 - Analyze Document API - クエリ

Analyze Document API を使用して 5,000 ページの住宅ローンフォームからテキストを抽出するとしましょう。また、クエリを介して各ページから 10 個の特定のデータポイントを抽出したいとします。米国西部 (オレゴン) リージョンでは、100 万ページの 1 ページあたりの料金は 0.015 USDで、合計 75 USD です。

処理する総ページ = 5,000 ページ

クエリによる 1 ページあたりの料金 = 0.015 USD

合計料金 = 0.015 USD × 5,000 = 75 USD

料金例 6 - Analyze Document API - フォームとクエリ

Analyze Document API を使用して 5,000 ページの納税申告書からテキストと表データを抽出するとしましょう。また、クエリを介して各ページから 10 個の特定のデータポイントを抽出したいとします。米国西部 (オレゴン) リージョンでは、100 万ページの 1 ページあたりの料金は、表とクエリありの場合は 0.020 USD、100 万ページ以降は 0.015 USD となります。総コストは 100 USD となります。

処理する総ページ = 5,000 ページ

表とクエリ付きページの料金 = 0.020 USD

合計料金 = 0.020 USD × 5,000 = 100 USD

料金例 7 – Analyze Document API – フォームとクエリ

Analyze Document API を使用して、5,000 ページの保険フォームからテキストとフォームデータ (キーと値のペア) を抽出するとしましょう。また、クエリを介して各ページから 10 個の特定のデータポイントを抽出したいとします。米国西部 (オレゴン) リージョンでは、100 万ページの 1 ページあたりの料金は、フォームとクエリありの場合は 0.055 USD、100 万ページ以降は 0.045 USD となります。総コストは 275 USD となります。

処理する総ページ = 5,000 ページ

フォーム (キーと値のペア) とクエリを含むページの料金 = 0.055 USD

合計料金 = 0.055 USD × 5,000 = 275 USD

料金例 8 – Analyze Document API – フォームとテーブルとクエリ

Analyze Document API を使用して、200 万ページの給与明細からテキスト、フォーム、表を抽出したいとします。また、クエリを介して各ページから 10 個の特定のデータポイントを抽出したいとします。米国西部 (オレゴン) リージョンでは、100 万ページの 1 ページあたりの料金は、表とフォームとクエリありの場合は 0.070 USD、100 万ページ以降は 0.055 USD となります。総コストは 125,000 USD となります。

処理する総ページ = 2,000,000 ページ 

表、フォーム、およびクエリ付きページの料金 = 最初の 100 万ページまでは 0.070 USD、次の 100 万ページは 0.055 USD 

合計料金 = 0.070 USD × 1,000,000 + 0.055 USD × 1,000,000 = 70,000 USD + 55,000 USD = 125,000 USD

料金例 9 - Analyze Expense API

Analyze Expense API を使って 10 万件の請求書からデータを抽出するとしましょう。米国西部 (オレゴン) リージョンでは、100 万ページを処理した場合の 1 ページあたりの料金は 0.01 USD で、10 万件の請求書を処理するとします。総コストは 1,000 USD となります。以下の計算をご覧ください。 

処理する総ページ = 100,000 

ページあたりの料金 = 0.01 USD 

月あたりの合計料金 = 0.01 USD × 100,000 = 1,000 USD

料金例 10 - Analyze Expense API

Analyze Expense API を使って 150 万件の請求書からデータを抽出するとしましょう。米国西部 (オレゴン) リージョンでは、100 万ページの 1 ページあたりの料金は 0.01 USD、100 万ページ以降は 0.008 USD となります。総コストは 14,000 USD となります。以下の計算をご覧ください。 

処理する総ページ = 1,500,000 

ページあたりの料金 = 最初の 100 万ページまでは 0.01 USD、次の 50 万ページは 0.008 USD 

月あたりの合計料金 = 0.01 USD × 1,000,000 + 0.008 USD × 500,000 = 14,000 USD

料金例 11 - Analyze ID API

Analyze ID API を使用して 100,000 件の身分証明書から情報を抽出するとします。米国西部 (オレゴン) リージョンでは、100,000 ページの 1 ページあたりの料金は 0.025 USD、最大 100,000 ページの 1 ページあたりの料金となります。総コストは 2,500 USD となります。 

処理する総ページ = 100,000 

ページあたりの料金 = 0.025 USD 

月あたりの合計料金 = 0.025 USD × 100,000 = 2,500 USD

料金例 12 - Analyze ID API

Analyze ID API を使用して 600,000 件の身分証明書から情報を抽出するとします。米国西部 (オレゴン) リージョンでは、100,000 ページの 1 ページあたりの料金は 0.025 USD、100,000 ページ以降は 0.01 USD となります。総コストは 7,500 USD となります。

処理する総ページ = 600,000 

ページあたりの料金 = 最初の 10 万ページまでは 0.025 USD、次の 50 万ページは 0.01 USD 

月あたりの合計料金 = 0.025 USD × 100,000 + 0.01 USD × 500,000 = 7,500 USD

Standard Product Icons (Features) Squid Ink
Amazon Textract のよくある質問を確認する

Amazon Textract が実質すべてのドキュメントからテキストおよび構造化データを抽出する方法の詳細

詳細 
Sign up for a free account
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Standard Product Icons (Start Building) Squid Ink
コンソールで構築を開始する

AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう。

サインアップ