抽出されたすべてのデータは、境界ボックスの座標、つまり単語、線、テーブル、あるいはテーブル内の個々のセルといった、識別されたデータの各要素を囲むポリゴンフレームとともに返されます。これは、ソースとなるドキュメントのどこから単語や数字が抽出されたかを監査できるようにするのに役立ちます。また、文書検索システムで元のドキュメントのスキャン画像を検索結果としてユーザーに返すうえでも役立ちます。例えば、患者病歴の詳細情報を得るために医療記録を検索する際に、ソースとなる文書を簡単にメモしたり、今後の検索のためにすばやく書き留めたりすることができます。

詳細はこちら »

光学文字認識

Amazon Textract では、光学文字認識 (OCR) を使用して、文書 (法的文書や書籍のスキャン画像など) のスキャン画像や表現内の印刷テキスト、手書き文字、および数字を自動的に検出します。

詳細はこちら »

フォーム抽出

文書の画像内のキーと値のペアを自動的に検出し、人間の介入を必要とすることなく、コンテキストを保持できます。key-value ペアは、リンクされたデータ項目のセットです。例えば、文書では、「First Name」フィールドがキーで、「Jane」フィールドが値です。この機能により、抽出したデータをデータベースにインポートしたり、アプリケーションに変数として渡したりするのが容易になります。従来の OCR ソリューションでは、キーと値は単純なテキストとして抽出され、ハードコードされたルールが各フォームについて記述および維持されない限り、それらの関係は失われます。

詳細はこちら »

テーブル抽出

抽出中、Amazon Textract では、テーブル内に保存されたデータの構成が保持されます。これは、列や行があるテーブルを含む財務報告書や医療記録など、主に構造化されたデータで構成されている文書に役立ちます。事前定義済みスキーマを使用して、抽出されたデータをデータベースに自動的にロードできます。例えば、インベントリレポートの項目番号と数量の行での関連付けが保持されるため、インベントリ管理アプリケーションは項目合計を簡単に増分できます。

詳細はこちら »

クエリベースの抽出

Amazon Textract では、クエリを使用してドキュメントから抽出する必要があるデータを柔軟に指定することができます。自然言語の質問の形式で必要な情報 (例:「顧客名は何ですか」) を指定し、API のレスポンスの一部として正確な情報 (例:「John Doe」) を受け取ることができます。ドキュメント内のデータ構造 (テーブル、フォーム、黙示のフィールド、ネストされたデータ) を知る必要はなく、ドキュメントのバージョンやフォーマットの違いについて心配する必要もありません。Textract Queries は給与明細、銀行明細、W-2、ローン申込書、抵当ノート、クレームドキュメント、保険証など、多種多様なドキュメントで事前にトレーニングされています。Textract Queries が提供する柔軟性により、後処理の必要性、抽出されたデータのマニュアルレビューへの依存、機械学習モデルのトレーニングの必要性を低減します。

詳細はこちら »

手書き文字の認識

医療受診報告書や雇用申込書などの多くの文書には、手書きの文字と印刷されたテキストの両方が含まれています。Amazon Textract は、テキストが自由形式であるかテーブルに埋め込まれているかにかかわらず、英語で記載された文書から両方を高い信頼スコアで抽出できます。文書には、入力したテキストおよび手書きの文字が混ざって記載されていてもかまいません。

詳細はこちら »

請求書と領収書

請求書や領収書のレイアウトは多岐にわたるため、手作業で大規模にデータを抽出するのは難しく、時間がかかります。Amazon Textract は、機械学習 (ML) を使用して請求書や領収書の文脈を理解し、ベンダー名、請求書番号、商品の料金、合計金額、支払い条件などの関連データを自動的に抽出します。

詳細はこちら »

身分証明書

Amazon Textract は、機械学習 (ML) を使用して、テンプレートや設定を必要とせずに、米国のパスポートや運転免許証などの身分証明書のコンテキストを理解します。有効期限や生年月日などの特定の情報を自動的に抽出できるだけでなく、名前や住所などの黙示的な情報をインテリジェントに識別して抽出することもできます。Analyze ID を使用すると、ID 検証サービスを提供する企業や、金融、ヘルスケア、および保険業界の企業は、顧客が身分証明書の写真やスキャンデータを送信できるようにすることで、アカウントの作成、予約のスケジュール設定、求人への応募などを簡単に自動化できます。

詳細はこちら »

境界ボックス

抽出されたすべてのデータは、境界ボックスの座標、つまり単語、線、テーブル、あるいはテーブル内の個々のセルといった、識別されたデータの各要素を囲むポリゴンフレームとともに返されます。これは、単語または数字がソースとなる文書のどの部分から取得されたものであるのかを監査するのに役立つとともに、検索結果が元のドキュメントのスキャンデータを提供する際にガイドを提供します。例えば、患者病歴の詳細情報を得るために医療記録を検索する際に、ソースとなる文書を簡単に見つけたり、今後の検索のために書き留めたりすることができます。

詳細はこちら »

調整可能な信頼度のしきい値

Amazon Textract では、ドキュメントから情報を抽出する際、識別するすべての要素の信頼スコアが返されます。そのため、抽出結果をどのように使用するかについて十分な情報に基づく判断を下すことができます。例えば、税関連の記録から情報を抽出し、高い精度を確保したい場合は、信頼スコアが 95% 未満のアイテムにフラグを付けて、人間によるレビュー対象とすることができます。レジュメやアーカイブされたレコードのデジタル化など、エラーによる悪影響が少ない他の文書には、より低いしきい値を設定できます。

詳細はこちら »

人間によるレビューを組み込んだワークフロー

Amazon Textract は Amazon Augmented AI (A2I) と直接統合されているため、ドキュメントから抽出された印刷されたテキストや手書きの文字の人間によるレビューを容易に実行できます。多くのテキスト抽出アプリケーションでは、信頼性の低い予測を人間がレビューして確実に結果が正しいものとなっているようにする必要がありますが、人間によるレビューシステムの構築には時間と費用がかかる可能性があります。Amazon A2I には、人間によるレビューワークフローが組み込まれているため、予測を簡単にレビューできます。アプリケーションの信頼度のしきい値を選択します。しきい値を下回る信頼度を持つすべての予測は、検証のために人間のレビュー担当者に自動的に送信されます。また、人間によるレビューのために送信するキーと値のペアを指定し、ランダムに選択された文書をレビューのために送信するように A2I を設定することもできます。組織内のレビュー担当者のプールを使用するか、Amazon Mechanical Turk を介して既に機械学習タスクを実行している 500,000 を超える独立請負業者のワークフォースにアクセスします。品質やセキュリティ手順の遵守について、AWS によりあらかじめスクリーニングされたワークフォースベンダーを使用することもできます。人間によるレビューのワークフローの実装の詳細については、Amazon A2I ウェブサイトおよびデベロッパーガイドの Amazon A2I Integration with Amazon Textractをご覧ください。

Amazon Textract の料金

Amazon Textract は、スキャンしたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出する機械学習 (ML) サービスです。これは、単純な光学文字認識 (OCR) のレベルにとどまらず、フォームやラベルからデータを識別、理解、および抽出します。Amazon Textract では、使用した分のみ料金が発生します。最低料金や前払いの義務はありません。Amazon Textract は、テキスト、表付きテキスト、フォームデータ、クエリの抽出、請求書や身分証明書の処理など、いずれの場合でも、処理されたページに対してのみ課金されます。 ページおよび Textract の利用規約の詳細については FAQ をご覧ください。

Amazon Textract の料金
Amazon Textract の料金の詳細

Amazon Textract の使用を開始するために、前払いの義務や長期契約は必要ありません。

詳細 
無料のアカウントにサインアップ
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
コンソールで構築を開始する
コンソールで構築を開始

AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう。

サインアップ