投稿日: Apr 19, 2023

ドキュメント分類用の Amazon Comprehend API が、テキストに加えてドキュメントのレイアウトを使用するようになり、Amazon Comprehend の精度が向上しました。 

Amazon Comprehend は自然言語処理 (NLP) サービスです。事前トレーニング済み API およびカスタム API を提供して、テキストデータからインサイトを取得します。re:Invent 2022では、Amazon Comprehend が一般的なドキュメントタイプに対する推論のサポートを追加し、ドキュメント分類を簡素化すると発表されました。当時は、レイアウトデータを含む PDF/Word/画像ファイルのカスタムドキュメント分類モデルをトレーニングして精度を高めることができませんでした。今後は、同じドキュメント分類 API を使用して、PDF 文書、Microsoft Word ファイル、および画像を使用してカスタム分類モデルをトレーニングできるようになります。これにより、レイアウト情報の使用が可能になり、分類の精度が向上します。分類精度が高いと、保険金請求や住宅ローン書類の分類など、さまざまなシナリオに役立ちます。この新機能は非同期処理やリアルタイムユースケースに使用できます。

レイアウト情報をサポートするのは、処理するドキュメントが英語の場合です。この機能は、Amazon Comprehend が利用可能な AWS リージョンすべてでご利用いただけます。

詳細と開始方法については、インテリジェントドキュメント処理のための Amazon Comprehend のページAWS ブログ、およびドキュメントを参照してください。