投稿日: Sep 15, 2021
機械学習を使用してテキスト内の情報を明らかにする自然言語処理 (NLP) サービスである Amazon Comprehend を使用することにより、さまざまな形式 (PDF、Word、プレーンテキスト) およびレイアウト (箇条書き、リストなど) でドキュメントからカスタムエンティティを抽出できるようになりました。これにより、インサイトをより簡単に抽出し、ドキュメント処理ワークフローをさらに自動化できます。
この発表までは、Amazon Comprehend はプレーンテキストドキュメントでしか使用できず、ドキュメントを機械での読み取りが可能なテキストにフラット化する必要があり、ドキュメント内のコンテキストの質の低下につながることがよくありました。この新機能は、自然言語処理 (NLP) と光学式文字認識 (OCR) の機能を組み合わせて、前処理を必要とせずに、同じ API を使用して、PDF、Word、およびプレーンテキストドキュメントからカスタムエンティティを抽出します。
新しいカスタムエンティティ認識機能は、テキストの構造コンテキスト (ページ内のテキスト配置) を自然言語コンテキストと組み合わせて利用し、高密度のテキスト、番号付きリスト、および箇条書きからカスタムエンティティを抽出します。この組み合わせにより、お客様は、同じテキストの範囲の一部ではない不連続または切断されたエンティティ (例えば、テーブル内にネストされたエンティティ) を抽出することもできます。この新機能により、お客様は、Comprehend を使用する前に、PDF ファイルと Word ファイルをフラット化されたプレーンテキストに変換するカスタムロジックを構築する必要もなくなります。Comprehend は、新しいドキュメント形式をネイティブにサポートすることにより、さまざまなドキュメント形式とレイアウトを処理する住宅ローン、金融、保険会社などの業界のお客様に重要なメリットを提供します。例えば、住宅ローン会社は、銀行取引明細書のスキャンされた PDF、給与明細書、雇用確認書などのドキュメントから申請者の銀行情報、住所、および共同署名者の名前を抽出することで、申請をより迅速に処理できるようになりました。
PDF、Word、およびプレーンテキストのドキュメントで使用できるカスタムエンティティ認識モデルをトレーニングするには、最初に、Amazon Comprehend が提供するカスタム Amazon SageMaker Ground Truth アノテーションテンプレートを使用して PDF ドキュメントにアノテーションを付ける必要があります。カスタムエンティティ認識モデルは、テキストの自然言語と位置情報 (座標など) の両方を活用して、ドキュメントをフラット化するときに、これまでは影響を受ける可能性があったカスタムエンティティを正確に抽出します。ドキュメントにアノテーションを付ける方法のステップバイステップの詳細については、Custom document annotation for extracting named entities in documents using Amazon Comprehend を参照してください。アノテーションを付け終えたら、カスタムエンティティ認識モデルをトレーニングし、それを使用して、バッチ (非同期) 処理のために PDF および Word からカスタムエンティティを抽出できます。スキャンされた PDF ドキュメントからテキストとテキストの空間的位置を抽出するために、Amazon Comprehend は、カスタムエンティティ認識の前のステップとして、お客様のために Amazon Textract を呼び出します。モデルをトレーニングして使用する方法の詳細については、Extract custom entities from documents in their native format with Amazon Comprehend を参照してください。
プレーンテキスト、PDF、および Word ドキュメントのカスタムエンティティ認識サポートは、AWS コンソールおよび AWS CLI から直接利用できます。Comprehend と Textract の両方のためにサポートされている AWS リージョンのリストを表示するには、すべての AWS グローバルインフラストラクチャの AWS リージョン表にアクセスしてください。
詳細と開始方法については、Amazon Comprehend の製品ページ、インテリジェントドキュメント処理ページ、または当社のドキュメントにアクセスしてください。