投稿日: Apr 21, 2022
Amazon Textract は、あらゆるドキュメントまたは画像からテキスト、手書き文字、およびデータを自動的に抽出する機械学習サービスです。Textract では、Analyze Document API の新しいクエリ機能を使って、ドキュメントから抽出する必要があるデータを柔軟に指定することができるようになりました。ドキュメント内のデータの構造 (テーブル、フォーム、黙示のフィールド、ネストされたデータ) を知る必要はなく、ドキュメントのバージョンやフォーマットの違いについて心配する必要もありません。クエリは、視覚的、空間的、および言語的な手がかりの組み合わせを活用して、求める情報を高精度で抽出します。
従来のOCRソリューションでは、多くの非構造化ドキュメントや半構造化ドキュメントから正確にデータを抽出するのに苦労しています。これは、これらの文書の複数のバージョンやフォーマットにおいて、データのレイアウトが大きく異なるためです。これらのドキュメントから抽出された情報は、カスタムの後処理コードを実装するか、マニュアルで確認する必要があります。また、ビジネスプロセスに必要な情報を抽出するために、OCR 出力全体を解析する必要があります。クエリを使用すると、自然言語の質問の形式で必要な情報 (例:「顧客名は何ですか」) を指定し、API のレスポンスの一部として正確な情報 (例:「John Doe」) を受け取ることができます。また、クエリでは、各質問にエイリアスを割り当てることができるため、出力結果をダウンストリームシステムと簡単に統合することができます。さらに、クエリは、さまざまな非構造化、半構造化、および構造化ドキュメントで事前トレーニングされています。例としては、給与明細、銀行取引明細書、W-2、ローン申込書、抵当証券、ワクチン、保険証などです。
Textract の Analyze Document Queries は、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (北カリフォルニア)、米国西部 (オレゴン)、アジアパシフィック (ムンバイ)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (パリ)、AWS GovCloud (米国東部) および AWS GovCloud (米国西部) で 2022 年 3 月 31 日 (金) に提供を開始する予定です。Analyze Document Queries をスタートするには、ここ をクリックしてください。