投稿日: Jul 27, 2021

あらゆるドキュメントやイメージからテキストと構造化データを抽出する機械学習サービスの Amazon Textract が請求書と領収書向けに特化されたサポートを提供するようになりました。これまで、これらの重要なドキュメントは特定の設計ルールに従っておらず、正しい解釈にコンテキストが必要な場合があったので、スケールでの処理が困難でした。例えば、「Vendor: Amazon」というようなラベルがない場合でも、ドキュメントの上部にある Amazon のロゴからベンダー名を抽出する必要があることがあります現在、Textract では、テンプレートや設定を必要とすることなく、ほとんどの請求書や領収書で明示的にラベル化されたデータ、暗示的なデータ、そして品目やサービスの項目リストから明細品目を抽出することが可能です。

本日から、Amazon Textract は領収書と請求書向けの以下の機能を提供します。1) ベンダー名の識別 - Amazon Textract は、「Vendor」(ベンダー) という明示的なラベルがなくても、領収書上のロゴからベンダー名を検出できます。また、明細品目の列ヘッダーでラベル化されていない項目、数量、価格も検出して抽出できます。2) 多くのドキュメントからの出力の統合の有効化 - Textract は、請求書と領収書からデータを抽出する際にキー名と列ヘッダーを標準の分類法に正規化します。例えば、「invoice no.」、「invoice number」、「receipt #」は同一であることが検出され、出力は「INVOICE_RECEIPT_ID」になるので、ダウンストリームアプリケーションは、多くのドキュメントからの出力を簡単に比較できます。3) 列ヘッダーがない場合の明細品目の詳細の抽出 - Textract は、請求書や領収書から購入済の個々の品目の項目、数量、価格を始めとする明細品目を抽出します。明細品目のラベルに列ヘッダーが含まれていない場合、Textract は、テーブルの内容に基づいて、列ヘッダーが意味する内容を推測するようになりました。

お客様の声を紹介します。

2010 年設立の Paymerang は、シンプル、セキュア、および高収益を特色とする多くの企業での電子的なサプライヤー支払いを支援しています。「私達は、ルーチンタスクの排除、サプライヤーへの電子的な支払い、そしてプロセスでの現金割引の獲得を実現することによって、多くの分野において、お客様が売掛処理を簡素化することを支援しています。」と語るのは、Paymerang のエンタープライズプラットフォーム部門を率いる Jason Losh 氏です。「私達は HIPAA 対応サービスの Amazon Textract を使用して、ヘルスケア部門のお客様が、抽出された情報を標準化するためのカスタムロジックを使用することなく、請求書からデータを自動的に抽出できるようにしています。Amazon Textract では、データを抽出して標準フィールドの一貫したセットに分類できるので、請求書のレイアウトの共通のパターンに従わないベンダーを使用するお客様に非常に高く評価されています。」

この機能の詳細については、詳細が記載されたドキュメント、およびAnalyzeExpense という新しい API で請求書と領収書に対して Textract を使用する方法を説明するブログ投稿を参照してください。料金ページもご確認ください。

AnalyzeExpense は、7 月 26 日のアジアパシフィック (シンガポール) リージョンを皮切りに、7 月 27 日の 欧州 (アイルランド)、7 月 28 日のアジアパシフィック (シドニー)、米国東部 (オハイオ)、米国西部 (北カリフォルニア)、7 月 29 日の 欧州 (フランクフルト)、欧州 (ロンドン)、米国東部 (バージニア北部)、7 月 30 日のアジアパシフィック (ソウル)、アジアパシフィック (ムンバイ)、カナダ (中部)、欧州 (パリ)、米国西部 (オレゴン)、そして 8 月 2 日の GovCloud (米国東部)、GovCloud (米国西部) リージョンで順次展開されます。