Amazon Web Services ブログ

文書理解ソリューションの導入と使用

(この記事は2020年10月30日に公開された Deploying and using the Document Understanding Solution を翻訳したものです。)

日常の経験に基づくと、私たちが消費するほとんどの情報はデジタルです。多くの人が印刷された新聞よりモバイルデバイスでニュースを見ています。スポーツイベント、音楽コンサートのチケット、 航空券などは携帯電話のアプリに保存されます。デジタル決済はどこにでもあるため、 数週間以上、財布に紙幣を入れなくても問題ありません。 しかし、さまざまな業界で数多くの企業はまだ手動、かつ紙ベースのプロセスで運営されています。 例えば、 医療保険会社、建設会社、法律事務所などは何十億もの文書を扱っているため、情報を探すのに時間がかかりました。文書を見つかった場合にも手作業で文書からデータをを抽出するのは時間、費用がかかったり、エラーの発生やコンプライアンスリスクが増える可能性があります。さらに、ドメインの専門家は、ドメイン固有のフレーズとキーワード (またはエンティティ) を識別して分類するか、手動でのカスタマイズが必要な従来の光学式文字認識 (OCR) とキーワード検出ソフトウェアを使用する必要があります。これらのアプローチは、整理されていない出力を生み出し、結果として利活用されない可能性があります。Amazon KendraAmazon TextractAmazon ComprehendAmazon Comprehend Medical などの AWS AI サービスは、機械学習 (ML) を使用してデータの抽出と理解を自動化することで、これらの課題を解決するのに役立ちます。

文書理解ソリューションの概要

文書理解ソリューション(Document Understanding Solution; DUS) を使用すると、エンタープライズ検索、ドキュメントのデジタル化、検出、および選択した情報の抽出と編集に AWS AI の機能を使用できます。AWS が提供する Intelligent Document Processing サービスの一部であるこのソリューションは、AWS AI (人工知能) サービスを使用してビジネス上の問題を解決します。

検索と検出

これらの課題は、ほとんどの業種に存在します。数百万とは言わないまでも、数千の製品およびツール仕様のアーカイブを維持しなければならないメーカーを想像してみてください。アーカイブのドキュメントのデジタル化がなければ、貴重なツールのデータが十分に活用されず、情報の検索が複雑、コストがかかる可能性があります。別の例として、金融業界の企業は、紙の形式で数千の財務報告書を持っている場合があります。このデータを抽出してデジタル化する簡単な方法がなければ、手入力するのに膨大な作業が必要になることもあります。

このような状況を支援するために、DUS は Amazon Textract を含む複数の ML サービスを活用しています。Amazon Textract は、スキャンしたドキュメントからテキストやデータを自動的に抽出するフルマネージドの機械学習サービスです*。単純な光学式文字認識 (OCR) を超えて、フォームやテーブルからデータを識別、理解、抽出します。Amazon Textract は、データを文書から簡単に検索できる形式に移動します。 次に、Amazon Kendra と Amazon OpenSearch Service を利用して、DUS でエンドユーザーの検索エクスペリエンスを提供します。 Amazon Kendra は、機械学習を活用したインテリジェントな検索サービスです。 Amazon Kendra は ML を使用して自然言語の質問に対してより良い結果を取得し、テキストスニペット、FAQ、PDF ドキュメントのいずれであっても、ドキュメント内から正確な回答を返します。 さらに DUS は Amazon Kendra に加えて、Amazon OpenSearch Service を使用してユーザーに豊富な検索エクスペリエンスを提供します。 Amazon OpenSearch Service は、OpenSearch をコスト効率よく大規模にデプロイ、保護、実行することを容易にする完全マネージド型のサービスです。

*現時点 (2023/04) では Amazon Textract は日本語をサポートしておりません。

制御とコンプライアンス

検索に以外も、文書を大規模に分析する機能が必須です。Amazon Textract は文書からテキストを抽出し、Amazon Comprehend または Amazon Comprehend Medical に入力できます。Amazon Comprehend は、機械学習を使用してテキスト内のインサイトとリレーションを見つける自然言語処理 (NLP) サービスです。場所、人物、ブランドなどのキーフレーズやエンティティを識別できます。Amazon Comprehend Medical は Comprehend と類似です。 機械学習を使用して非構造化テキストから関連する医療情報を簡単に抽出できる自然言語処理サービスです。 病状や薬などの医療エンティティを識別できます。

これらの重要な情報を特定することで、編集によるコンプライアンス制御が可能になります。たとえば、保険会社はこのソリューションを使用して、保護が必要な重要なキーペアとエンティティを自動的に認識することにより、請求フォームをアーカイブする前に、レビューのために個人を特定できる情報 (PII) または保護された医療情報 (PHI) を自動的に編集するワークフローを提供できます。

他の業界でも、GDPR や HIPAA などの規制基準に準拠するためにこのソリューションを使用できます。法律事務所などはこのソリューションを使用して、PII、組織名、またはブランド名を秘匿化することができます。他にもデータセキュリティやプライバシーの懸念から、事件ファイルから名前、場所、日付などのすべての重要な情報を編集する必要があるセキュリティエージェンシーなどがあります。

ワークフローの自動化

DUS ソリューションは、プロダクションワークフローが大量の処理をできるようにします。組織は、保険金請求書やフォームなどの文書をより迅速に処理し、PDF から CSV にテーブルをシームレスに抽出して追加の分析を行うことができます。また、医療機関は医療エンティティと ICD-10-CM オントロジーの検出と分類により、患者情報の識別と分類に費やされる労働力、時間、およびその他のリソースの節約することができます。すべてのデータはソリューションによって下流のパイプラインに提供可能な、CSV ファイルやJSON ファイルなどのアクセスしやすい形式で保存されます。さらに、DUS の一括処理機能により、多数のドキュメントを直接インポートして処理、分析することができます。

次の図は、DUS アーキテクチャを示しています。

DUS のデプロイ

DUS の設定手順については、AWS ソリューションの Document Understanding Solution を参照してください。

DUS をデプロイすると、文書の理解に使用できる Web アプリケーションがセットアップされます。 デプロイには、AWS アカウントでのインフラストラクチャのセットアップと、サンプル文書の事前ロードが含まれます。

DUS の使用

DUS デモのデプロイが正常に完了すると、アプリケーションへのログイン方法が示されます。ログインすると、次のようなホームページに移動します。文書理解ソリューションの一般的なユースケースをカバーする 3 つのオプションがあります。検出、コンプライアンス、およびワークフローの自動化です。


検出 (Discovery) を選択すると、事前ロードされた文書ページまたは文書リストページに移動します。既にロードされたサンプル文書の 1 つを選択するか、独自の文書をアップロードできます。ここから、語句またはキーワードを使用して特定の文書を検索できます。


独自の文書をアップロードする場合は、利用可能な文書の上にある 独自の文書をアップロード (upload your own documents) を選択します。 次に、独自の文書をアップロードするための新しいページに移動します。 このページには、実験用のさまざまな業界のサンプル文書もあります。


Document List ページに戻ると、いくつかの PDF ファイルと画像ファイルがあります。 これらの文書のテキストは、タグ付けされておらず、デフォルトでは使用できません。 ただし、これらのドキュメントはソリューションによって処理されているため、これらの文書内の情報を検索できるようになります。 検索バーで特定の語句またはキーワードを検索すると、ソリューションは文書から抽出したテキストを分析し、検索結果を提供します。 検索結果は Amazon OpenSearch Service (従来の検索) と Amazon Kendra (セマンティック検索) の比較ビュー、或いは Amazon OpenSearch Service または Amazon Kendra のみの3 つの異なる方法で表示できます。

Amazon Kendra の結果については、Amazon Kendra が提案した回答に賛成票または反対票を投じてフィードバックを提供するオプションもあります。

Amazon Kendra は、ユーザー コンテキストに基づくフィルタリングもサポートしています。Amazon Kendra の結果ビューから事前ロードされた文書のユーザーに基づいて結果をフィルタリングできます。Amazon Kendra Results タイトルの右側にある フィルター (Filter) ボタンをクリックします。 次に、ペルソナと提案された質問の 1 つを選択して、フィルタリングされた結果を表示できます。 Amazon Kendra は、選択されたペルソナに基づいて結果をランク付けします。 さまざまなペルソナを切り替えて、結果の違いを比較できます。 文書理解ソリューションにはデモ用で医療業界のドキュメントとペルソナが事前にロードされています。 選択した質問とペルソナに基づいて、結果のランク付けが異なり、ユーザーにより的を絞った検索エクスペリエンスが作成されていることがわかります。

文書リストの検索結果ビューから、さらに調べたい文書を選択できます。 これにより、文書の詳細ページが表示されます。 次の画像を参照してください。

次の画像は、検索バーの上にあるツールバーを示しています。ここでは、文書からさまざまな種類の情報を表示することを選択できます。

タブには次の機能があります。

  • Preview – このタブでは、元の文書を表示したり、ドキュメントの検索可能な PDF バージョンをダウンロードしたりできます。 これにより、ユーザーは文書を画像や PDF から簡単に検索できる PDF ファイルに変換できます。
  • Raw Text – このタブでは、ファイルで識別されたすべてのテキストにアクセスできます。
  • Key-Value Pairs – このタブでは、文書のキーと値のペアが強調表示されます。 このプロセスでは、文書内のすべてのフォームが識別され、キーと値のペア形式で保存されます。 必要に応じて、キーと値のペアの CSV ファイルをダウンロードできます。 これは、構造化されたデータを持ち、データの抽出と保存のワークフローを自動化したい組織にとって特に便利です。 たとえば、求人応募フォームや医療患者フォームなど、多くのフォームを持つ組織です。
  • Tables – このタブでは、文書で識別されたすべてのテーブルを表示できます。 キーと値のペアと同様に、テーブルを CSV 形式でダウンロードできます。 貸借対照表や請求書を扱う企業には、テーブル、画像、PDF を CSV ファイルに簡単に変換して、さらに分析するために使用可能な非常に便利な機能です。
  • Entities and Medical Entities – これらのタブでは、文書内の一般エンティティと医療エンティティをそれぞれ見つけることができます。 これらのエンティティには、人物、場所、日付、PHI、および医療情報が含まれており、組織が文書内の重要な医療データを簡単に識別して抽出するのに役立ちます。

編集機能を確認するには、ツールバーの コンプライアンス (Compliance) オプションを選択します。 ここでは、ツールバーのそれぞれのタブに切り替えて編集 (Redact) を選択することで、キーと値のペア、エンティティ、医療エンティティ、さらにはキーワードの一致などの情報を編集できます。 この機能を活用する例としては診療所において医療記録を共有する前に PHI 情報を削除したいと考えている場合などがあります。 もう 1 つの例は、ドキュメントに存在するフォームで キーと値のペアとして識別される特定の情報を編集したい組織です。 次の図に示すように、情報を編集したり、編集した文書をダウンロードしたり、使用後に編集をクリアしたりすることもできます。

ワークフローの自動化に関しては、文書理解ソリューションは、AWS コンソールを介していくつかの入力および出力機能も提供し、DUS を既存のパイプラインに簡単に統合できるようにします。 DUS は一括文書処理モードをサポートしています。このモードでは、文書を Amazon Simple Storage Service (Amazon S3) バケットに入力するだけで、非同期的に分析され、アプリケーションで利用できるようになります。 一括処理の詳細については、DUS の実装ガイドをご覧ください。 さまざまな AWS AI サービスからの結果はすべて Amazon S3 バケット内に保存され、対応するメタデータは Amazon DynamoDB テーブルで利用できます。 これにより、ソリューションのユーザーは、ドキュメント分析データを保持するこれらのデータストアからダウンストリーム パイプラインを構築できます。

概要

この記事では、Amazon Textract、Amazon Comprehend、Amazon Comprehend Medical、および Amazon Kendra を統合して、エンタープライズ検索、文書のデジタル化、検出、および選択した情報の抽出と編集を行う方法を確認しました。
DUS ソースコードにアクセスするには、GitHub の Document Understanding Solution を参照してください。 このソリューションはオープンソースになっているため、ソリューションを拡張して AWS ワークフローに組み込むことができます。