光学文字認識 (OCR)

Amazon Textract では、光学文字認識 (OCR) 技術を使用して法的文書などのドキュメントのスキャン画像や訳文、または書籍のスキャン画像内の印刷テキストや数字を自動的に検出できます。 

詳細 >>

光学文字認識 (OCR)

フォーム抽出

Amazon Textract では、ドキュメント画像内の key-value ペアを自動的に検出できます。そのため、手動による介入なしにドキュメントの元のコンテキストを保持できます。key-value ペアは、関連付けられたデータ項目のセットです。例えば、ドキュメント内の「名」フィールドは key、「Jane」は value になります。この機能により、抽出したデータをデータベースにインポートしたり、アプリケーションに変数として渡したりするのが容易になります。従来の OCR ソリューションでは、keyvalue は単純なテキストとして抽出され、ハードコード化されたルールを作成して各フォーム用に維持しない限り、key-value 間の関連付けは失われます。 

詳細 >>

key-value ペアの抽出

テーブル抽出

Amazon Textract では抽出時に、テーブル内に保存されたデータの構成が保持されます。これは、主に構造化されたデータで構成されたドキュメントで役立ちます。例えば、財務報告や医療記録など、一番上の行に列名があり、続く行に個々の入力項目があるテーブルを含むドキュメントが挙げられます。この機能により、事前定義済みスキーマを使用して、抽出されたデータをデータベースに自動的にロードできます。例えば、インベントリレポートの項目番号と数量の行での関連付けが保持されるため、インベントリ管理アプリケーションで項目合計を簡単に増分できます。

詳細 >>

テーブル抽出

境界ボックス

抽出されたすべてのデータは、境界ボックスの座標、つまり単語、線、テーブル、あるいはテーブル内の個々のセルといった、識別されたデータの各要素を囲むポリゴンフレームと共に返されます。これは、ソースとなるドキュメントのどこから単語や数字が抽出されたかを監査できるようにするのに役立ちます。また、文書検索システムで元のドキュメントのスキャン画像を検索結果としてユーザーに返すうえでも役立ちます。例えば、患者病歴の詳細情報を得るために医療記録を検索する際に、ソースとなるドキュメントを簡単に記録したり、今後の検索のためにすばやく書きとめたりすることができます。

詳細 >>

調整可能な信頼度しきい値

Amazon Textract では、ドキュメントから情報を抽出する際、識別するすべての要素の信頼スコアが返されます。そのため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。例えば、税務書類から情報を抽出しており、高い精度を求めている場合、抽出された情報の信頼スコアが 95% 未満であればフラグを立てるビジネスロジックを作成し、人間による確認を行えます。ただし、履歴書の処理やアーカイブされたドキュメントのデジタル化など、エラーの結果がほとんど、またはまったくマイナスの結果とならないその他のタイプのドキュメントの場合、低いしきい値を選択することもできます。

詳細 >>

Product-Page_Standard-Icons_01_Product-Features_SqInk
Amazon Textract 料金の詳細

Amazon Textract の使用を開始するために、前払いの義務や長期契約は必要ありません。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう。

サインアップ