Amazon Comprehend を使用して画像と Textract JSON ファイルからカスタムエンティティを抽出する

投稿日: Mar 24, 2022

Amazon Comprehend は、テキスト、PDF、Word に加えて、画像形式のドキュメントをサポートするようになりました。お客様は、Comprehend カスタムエンティティ認識を使用して画像ファイル (JPG、PNG、TIFF) からエンティティを抽出できるようになりました。また、Amazon Textract の JSON 出力で Comprehend を直接使用して、ドキュメントからカスタムエンティティを抽出することもできます。今回のリリースにより、お客様はインテリジェントドキュメント処理 (IDP) ワークフローを簡素化でき、Comprehend と Textract のすぐに使用できる統合を利用して、ドキュメントからエンティティを抽出できます。これらの機能の詳細な説明を以下に記載しています。

画像ファイルのカスタム NER - Amazon Comprehend は、これまでに PDF および Word ドキュメント向けのカスタムエンティティ認識サポートを開始しています (詳細については、お知らせを参照してください)。本日より、お客様は Comprehend を使用して、画像ファイル (JPG、PNG、TIFF) 内のドキュメントからも情報を抽出し、さまざまなドキュメント処理ワークフローをさらにサポートできるようになります。この機能により、Comprehend を使用してエンティティの抽出を完了する前に、OCR 出力を後処理する必要がなくなります。お客様はまず、カスタムエンティティ認識モデルに注釈を付けて PDF ドキュメントでトレーニングします。トレーニングされたカスタムエンティティ認識モデルは、テキストの自然言語と位置情報 (座標など) の両方を活用して、推論中に PDF、Word、プレーンテキスト、そして今後は画像形式からカスタムエンティティを正確に抽出します。詳細については、ドキュメントを参照してください。

Textract の JSON 出力のカスタム NER - 本日より、お客様は、Comprehend カスタム NER 推論中に、Textract の DetectDocumentText または AnalyzeDocument JSON 出力を入力として使用できるようになりました。既存の Textract 出力を活用することで、お客様はドキュメント処理ワークフローをさらに簡素化し (これにより時間とコストを削減できます)、ワークフローを拡張して、より広範なドキュメントセットからカスタムエンティティを抽出できます。詳細については、ドキュメントを参照してください。

詳細および開始方法については、Amazon Comprehend の製品ページを参照してください。

Amazon Comprehend を使用して画像と Textract JSON ファイルからカスタムエンティティを抽出する

Internet Explorer のサポートの終了