Amazon Web Services ブログ

Amazon Textract を使用した住宅ローンデータの分類と抽出

住宅ローンの申請は、少なくとも米国では、約 500 ページ以上にわたるさまざまな文書で構成されています。申請書を審査するためには、これらのすべての文書を分類し、各フォームのデータを抽出する必要があります。これは想像するよりも大変です! 各文書のデータ構造が異なるだけでなく、同じデータ要素でも文書によって名前が異なる場合があります。SSN、Social Security Number、Tax ID はその一例です。これら 3 つはすべて同じデータに言及しています。

11 月 27 日より、住宅ローンの申請書類一式に含まれる文書を分析および分類し、それらに含まれるデータを抽出するための新しい Analyze Lending API が Amazon Textract でご利用いただけるようになりました。この新しい API は、業界の大手融資企業からのご要望にお応えして、アプリケーションの処理を迅速化し、エラーを減らすのをサポートするために作成されました。これにより、エンドカスタマーエクスペリエンスを改善し、運用コストを削減できます。

これまでも一部の融資企業は Amazon Textract などのテクノロジーを使用したハイブリッドアプローチを採用していましたが、住宅ローンの申請書類一式からのデータの分類と抽出は人的負担の大きい作業でした。しかし、お客様からは、スタッフがより価値の高いタスクに集中できるように、オートメーションの取り組みをスピードアップし、人為的ミスを減らすには、ワークフローをさらに自動化する必要があるという声が寄せられました。

新しい API は、付加価値のあるサービスも提供します。どの文書に署名があり、どの文書に署名がないかを明らかにするために、署名検出を実行できます。また、住宅ローンの申請書類一式に含まれる文書の概要の出力も提供し、銀行取引明細書などの特定の重要な文書や、通常含まれ得る 1,003 種類のフォームを特定します。新しいワークフローは、機械学習 (ML) モデルのコレクションを利用しています。住宅ローンの申請書類一式がアップロードされると、ワークフローは申請書類一式に含まれる文書を分類してから、データを抽出するために、その分類に基づいて適切な ML モデルに転送します。

新しい Analyze Lending API を試す
新しい API は、融資企業によってビジネスプロセスのワークフローとアプリケーションに組み込まれることが意図されていますが、実際はどのような企業も Amazon Textract コンソールを使用して試すことができます。これにより、API がどのように文書を分類し、文書に含まれるデータ要素を抽出するかを確認できます。機械学習と人工知能の適用にご関心がある場合、住宅ローンの申請書類一式を処理していない場合でも、これは興味深いサービスかもしれません。

まず、Amazon Textract コンソールを開き、ナビゲーションパネルの [Analyze Lending] を展開して、[Demo] (デモ) を選択します。デモコンソールは、一連の合成テストファイルを直ちに分析し、以下に示す結果を出力します ([Reset demo] (デモをリセット) ボタンをクリックすると、いつでもデモを再開できます)。分析結果の概要と、申請書類一式に含まれる各文書の文書カルーセルが表示されます。デモコンソールには、(とりわけ) 文書に関連する用語の概要などを含む便利なヘルプパネルもあります。

住宅ローン文書の分析の概要、カルーセル、用語のヘルプテキスト

カルーセルでは、署名が検出されたことを示す署名バッジが 1 つの文書に表示されていますが、確認する前にカルーセルをスクロールすると、1 つの文書に [Unclassified] (未分類) というラベルが付いていることがわかります。

未分類の文書の通知

カルーセルで署名バッジの付いた文書に戻ると、小切手であることがわかります。通常、署名の検出作業の多くが手作業で行われるため、文書分析を使用して署名が検出された場合に自動的にマークを付けることで、時間を大幅に節約できます。

署名検出

給与明細は、処理が困難で時間がかかる場合があるという声がお客様から寄せられたもう 1 つの文書タイプです。検出された給与明細をカルーセルで選択すると、そこから抽出されたデータが表示されます。

給与明細の検出とデータ抽出

デモコンソールの合成データには、API が住宅ローンの申請書類一式に含まれる文書からデータを分析、分類、抽出する方法の概要が示されています。ただし、自分の文書を使用することもできます。デモコンソールでこれを実行するために、[Upload package] (申請書類一式をアップロード) ボタンをクリックして、分析する文書を含む 1 つのファイル (デモコンソールでのテスト用に最大 5 MB、最大 10 ページ) を指定します。デモコンソール以外では、API は最大 3,000 ページの文書をサポートします。

合成データと独自のデータの両方の結果は、[Download results] (結果をダウンロード) ボタンをクリックしてダウンロードできます。これにより、4 つのファイルを含む .zip ファイルが作成されます。2 つは API からの未処理の JSON レスポンスです。残りの 2 つは、概要 (summary.csv) と抽出されたデータ (extractions.csv) を含む CSV 形式のファイルです。どちらのファイルも key-value 形式です。

合成テストデータの概要データファイルの内容を以下に示します。

'DocumentName,'FirstPage,'LastPage
"'Payslips","'1","'1"
"'Checks","'2","'2"
"'Identity document","'3","'3"
"'1099 DIV","'4","'4"
"'Bank statement","'5","'5"
"'W2","'6","'6"
"'Unclassified","'7","'7"

抽出ファイルに含まれるデータの例を以下に示します。

'key,'value
"'PAY PERIOD END DATE","'7/18/2008"
"'PAY DATE","'7/25/2008"
"'BORROWER NAME","'JOHN STILES"
"'BORROWER ADDRESS","'101 MAIN STREET ANYTOWN, USA 12345"
"'COMPANY NAME","'ANY COMPANY CORP."
"'COMPANY ADDRESS","'475 ANY AVENUE ANYTOWN, USA 10101"
"'FEDERAL FILING STATUS","'Married"
"'STATE FILING STATUS","'2"
"'CURRENT GROSS PAY","'$ 452.43"
"'YTD GROSS PAY","'23,526.80"
"'CURRENT NET PAY","'$ 291.90"
"'REGULAR HOURLY RATE","'10.00"
"'HOLIDAY HOURLY RATE","'10.00"
"'WARNINGS MESSAGES NOTES","'EFFECTIVE THIS PAY PERIOD YOUR REGULAR HOURLY RATE HAS BEEN CHANGED FROM $8.00 TO $10.00 PER HOUR."
"'CURRENT REGULAR PAY","'320"
...

ご自身で Analyze Lending API をお試しください
新しい API は Amazon Textract が提供されているすべてのリージョンで利用できますが、ワークフローと処理の重点は米国を念頭に置いた文書にあることに注意してください。新しい API の料金は、既存のテーブル、フォーム、クエリの料金と同じです。詳細については、サービス料金ページをご覧ください。最後に、「デベロッパーガイド」で API の詳細をお読みいただけます

Amazon Textract コンソールで、新しい Analyze Lending API をご自身で今すぐお試しください!

– Steve

原文はこちらです。