光学文字認識 (OCR)

Amazon Textract では、光学文字認識 (OCR) 技術を使用して法的文書などのドキュメントのスキャン画像や訳文、または書籍のスキャン画像内の印刷テキストや数字を自動的に検出できます。 

詳細 >>

光学文字認識 (OCR)

フォーム抽出

Amazon Textract では、ドキュメント画像内の key-value ペアを自動的に検出できます。そのため、手動による介入なしにドキュメントの元のコンテキストを保持できます。key-value ペアは、関連付けられたデータ項目のセットです。例えば、ドキュメント内の「名」フィールドは key、「Jane」は value になります。この機能により、抽出したデータをデータベースにインポートしたり、アプリケーションに変数として渡したりするのが容易になります。従来の OCR ソリューションでは、keyvalue は単純なテキストとして抽出され、ハードコード化されたルールを作成して各フォーム用に維持しない限り、key-value 間の関連付けは失われます。 

詳細 >>

key-value ペアの抽出

テーブル抽出

Amazon Textract では抽出時に、テーブル内に保存されたデータの構成が保持されます。これは、主に構造化されたデータで構成されたドキュメントで役立ちます。例えば、財務報告や医療記録など、一番上の行に列名があり、続く行に個々の入力項目があるテーブルを含むドキュメントが挙げられます。この機能により、事前定義済みスキーマを使用して、抽出されたデータをデータベースに自動的にロードできます。例えば、インベントリレポートの項目番号と数量の行での関連付けが保持されるため、インベントリ管理アプリケーションで項目合計を簡単に増分できます。

詳細 >>

テーブル抽出

境界ボックス

抽出されたすべてのデータは、境界ボックスの座標、つまり単語、線、テーブル、あるいはテーブル内の個々のセルといった、識別されたデータの各要素を囲むポリゴンフレームと共に返されます。これは、ソースとなるドキュメントのどこから単語や数字が抽出されたかを監査できるようにするのに役立ちます。また、文書検索システムで元のドキュメントのスキャン画像を検索結果としてユーザーに返すうえでも役立ちます。例えば、患者病歴の詳細情報を得るために医療記録を検索する際に、ソースとなるドキュメントを簡単に記録したり、今後の検索のためにすばやく書きとめたりすることができます。

詳細 >>

調整可能な信頼度しきい値

Amazon Textract では、ドキュメントから情報を抽出する際、識別するすべての要素の信頼スコアが返されます。そのため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。例えば、税務書類から情報を抽出しており、高い精度を求めている場合、抽出された情報の信頼スコアが 95% 未満であればフラグを立てるビジネスロジックを作成し、人間による確認を行えます。ただし、履歴書の処理やアーカイブされたドキュメントのデジタル化など、エラーの結果がほとんど、またはまったくマイナスの結果とならないその他のタイプのドキュメントの場合、低いしきい値を選択することもできます。

詳細 >>

人間によるレビューを組み込んだワークフロー

Amazon Textract は Amazon Augmented AI (Amazon A2I) と直接統合されているため、ドキュメントから抽出されたテキストの人間によるレビューを容易に実装できます。多くのテキスト抽出アプリケーションでは、結果が正しいかどうかを確認するため、人間が信頼性の低い予測を確認する必要があります。たとえば、スキャンした住宅ローン申請書から情報を抽出するには、ドキュメントのレンダリングの品質が低いときなど、場合によっては人間によるレビューが必要になります。しかし、人を介したレビューシステムの構築は、複雑なプロセスまたは「ワークフロー」の実装、レビュータスクと結果を管理するカスタムソフトウェアの作成、さらに多くの場合、大規模なレビュー担当グループの管理を伴うため、時間と費用がかかります。Amazon A2I は、テキスト抽出など一般的な機械学習のユースケース向けの、人によるレビューワークフローをビルトインで提供しています。このため、Amazon Textract からの予測を簡単にレビューできます。アプリケーションの信頼度しきい値を選択できます。しきい値を下回る信頼度を持つすべての予測は、検証のために人間のレビュー担当者に自動的に送信されます。また。人間によるレビューのために送信されるべきキー/値のペアも指定できます。最後に、A2I を設定して、人間によるレビューのためにランダムに選択されたドキュメントを送信することもできます。Amazon A2I で、組織ないのレビュー担当者のプールを使用するか、Amazo Mechanical Turk を通じて機械学習タスクをすでに実行している 500,000 を超える独立契約業者にアクセスすることができます。AWS により品質、セキュリティ手順の順守について、AWS によりあらかじめスクリーニングされたワークフォースベンダーを使用することもできます。人間によるレビューのワークフローを実施することの詳細については、Amazon A2I ウェブサイトおよび開発者ガイドの Amazon A2I の Amazon Textract との統合 を参照してください。 

Product-Page_Standard-Icons_01_Product-Features_SqInk
Amazon Textract 料金の詳細

Amazon Textract の使用を開始するために、前払いの義務や長期契約は必要ありません。

詳細 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。 

サインアップ 
Product-Page_Standard-Icons_03_Start-Building_SqInk
コンソールで構築を開始する

AWS マネジメントコンソールで Amazon Textract を使った構築を始めましょう。

サインアップ