Amazon Web Services ブログ

Amazon Textract が PCI DSS 認定を取得し、テーブルとフォームからさらに多くのデータの処理が可能に

Amazon Textract は、スキャンしたドキュメントからテキストとデータを自動的に抽出するだけではありません。テンプレート、設定、または機械学習の経験を必要とせず、単純な光学文字認識 (OCR) の域を超えて、テーブルのフィールドと情報に関するコンテンツも識別します。Intuit、PitchBook、Change Healthcare、Alfresco などのお客様は、すでに Amazon Textract を使用してドキュメント処理ワークフローを自動化し、数百万におよぶページを数時間で正確に処理しています。さらに、スマート検索インデックスを作成し、自動承認ワークフローを構築して、編集を必要とする可能性のあるデータにフラグを立てることによりドキュメントアーカイブルールへのコンプライアンスをより良いかたちで維持します。

本日、アマゾン ウェブ サービス (AWS) は、Amazon Textract が PCI DSS 認定を取得したことをご報告します。 この取得で、カード所有者のデータ (CHD) や機密認証データ (SAD) など、ペイメントカード業界のデータセキュリティ標準 (PCI DSS) の情報セキュリティ標準を必要とするあらゆるワークロードに、Amazon Textract を使用できるようになりました。Amazon Textract は HIPAA に適したサービスであるため、Amazon Textract で保護された健康情報 (PHI) ワークロードを処理することもできます。加えて、本日より AWS は新しい品質強化を開始し、テーブル (固定した行と列に編成された構造的なデータ) およびフォーム (キーと値のペアと、チェックボックスやラジオボタンなどの選択可能な要素として表される構造的なデータ) からさらに多くのデータを取得できるようになりました。

Amazon Textract は分割セルと結合セルなどの複雑なテーブルから、より多くのデータをより正確に取得できるようになりました。Amazon Textract は境界線が明示的に描かれていないテーブルであっても、折り返しを設定しているテキスト (複数行にわたって表示されるテキスト) のあるセルの行と列をより正確に識別します。Amazon Textract はさらに、同じページ上のテーブル、およびテーブル内に入れ子にされたキーと値のペアも含むドキュメントからフォームデータをより正確に取得します。こうした機能の強化は 2019 年 10 月に開始した更新に基づいて構築しており、テキスト検索の精度が向上しただけでなく、スキャンが不完全なために起こるドキュメントの回転や変形をこれまで以上に正確に修正します。

この投稿ではこれらの新しい品質強化の利点を説明し、保険業界で一般的な Acord フォームの 1 つである Acord 25 を分析します。このようなドキュメントは、複数のテーブルを含むことがよくあります。たとえば、異なる保険会社を表すテーブル、負債の種類を一覧表示する 2 つ目のテーブル、補償範囲を取得する 3 つ目のテーブルです。被保険者、責任条件などに関する情報を取得するため、キーと値のペアとチェックボックスは複数ある可能性があります。

次の Acord 25 ドキュメントには、説明のため、架空のコンテンツが含まれています。

次の画像は、以前に取得した元の出力を示しています。Amazon Textract は 2 つのプライマリテーブルを正しく識別し、2 つ目のテーブルの右側のセクションは同じテーブルの一部ではないと判断しました。しかし、そのセクションを 3 つ目のテーブルとして識別できませんでした。

次の画像は、新しい更新を含む Amazon Textract からの出力を示しています。結合したセルと折り返しを設定しているテキストを含む複雑なテーブル構造でのパフォーマンスが向上し、3 つのテーブルすべてを正しく識別しています。

Amazon Textract を使用しているお客様

PitchBook、MSP Recovery、Filevine は Amazon Textract を使用しており、AWS と経験を共有しています。

PitchBook は民間資本市場、特に VC、PE、および M&A に関するデータの大手プロバイダーです。同社のデータはこれらの市場のデータの一部で、調査から取得し、主に PDF です。PitchBook はこの研究プロセス部分の処理を改善するため、Amazon Textract を使用することにしました。PitchBook のデータサイエンスおよびソフトウェアエンジニアリングのディレクター、Tyler Martinez 氏によれば、「Amazon Textract を使用する前は PDF を調べて情報を手動で入力していたため、このプロセスに何百時間もかかっていました。Amazon Textract を使用することで、このプロセスから 60% 高い利益が得られるようになりました。当社では、データ収集プロセスを改善することができそうな他の分野でも、Amazon Textract を使用したいと考えています。」

MSP Recovery は包括的な保険金請求プラットフォームを提供しており、これで複数の保険会社の中で最も重要な支払責任を決定できます。「Amazon Textract はとても優れています」と、MSP Recovery のソフトウェア開発責任者である Franklin Perez 氏は述べます。「当社は、Amazon Textract を使ってさまざまなドキュメント形式を検出し、情報とデータを適切かつ効率的に処理することにしました。この機能は、テーブルやフォームなどテキストの取得元となる形式がさまざまに異なっていても認識できるように設計されています。これで、当社の AI の夢が実現しています。当社ではさまざまな種類のドキュメントを定期的に受け取り、それらを効率的に読み込む必要があるため、いろんなドキュメントに対してスケーラブルなソリューションを必要としていました。無駄のないチームが数千におよぶドキュメントの読み込みを自動化することで、難しく手間のかかる部分を機械学習が処理できるようになりました。その結果、チームはより高次での課題に集中できるようになったのです。」

Filevine は法律専門家向けの運用の中核となる、クラウドベースのケースや案件管理、ドキュメント管理、詳細なレポート分析などのサービスを提供しています。2015 年の発売以来、Filevine は迅速なイノベーションと受賞歴のあるデザインに取り組み、独立したレビューサイトからも最高の評価を得ています。Filevine の最高経営責任者である Ryan Anderson 氏は次のように述べています。「Filevine では、毎日数百万件の案件とケースファイルが処理しています。アマゾン ウェブ サービスを選んだのは、クラス最高のドキュメント検索ソリューションをお客様に提供したかったからです。Amazon Textract は、高速で正確、かつスケーラブルです。これで、世界最大規模で最も洗練された法律関連組織からの厳しい要件も満たすことができます。Filevine と Amazon のおかげで、砂浜に落とした針を見つけるような法律専門家が行う作業も、これまでになく簡単になりました。」

まとめ

Amazon Textract の最新の改良で、同じドキュメントからより多くの情報をより正確に取得できるようになりました。Amazon Textract は改善を続けています。 AWS は AWS re:Invent 2019 で、Amazon Textract が Amazon Augmented Artificial Intelligence と統合したフォーム機能のパブリックプレビューを行いました。これにより、Amazon Textract からの AI 推論出力に、人間による検証を適用できるようになります。Amazon Textract では、同期 API のファイルサイズ制限を 10 MB に増やしました。非同期 API を引き続き使用して、それぞれ最大 500 MB のファイルを処理することもできます。詳細については、YouTube で「AWS re:Invent 2019: [REPEAT] AI document processing for business automation」をご覧ください。

今すぐ Amazon Textract を開始できます。画像または PDF ドキュメントで Amazon Textract を試してみてください。ほんの数秒で、高品質の結果が得られます。


著者について

Kriti Bharti は Amazon Textract のプロダクトリードです。Kriti は、ヘルスケア、銀行および金融、小売などの複数の業界にわたって、製品管理、プログラム管理、テクノロジー管理の 15 年以上の経験があります。余暇には猫の Fifi やいとこたちと楽しい時間を過ごしたり、本を読んだり、いろんなダンスを学んだりしています。