Amazon Web Services ブログ

Amazon Comprehend がマルチラベルのカスタム分類のサポートを開始



Amazon Comprehend は完全マネージド型の自然言語処理 (NLP) サービスで、ドキュメントのコンテンツから洞察を抽出するテキスト分析を可能にします。Amazon Comprehend がカスタム分類をサポートするようになり、ML の専門知識を必要とせずに、お客様固有の要件に合わせてカスタム分類子を構築できるようになりました。以前は、カスタム分類はマルチクラス分類をサポートしていました。マルチクラス分類は、相互に排他的なラベルのリストからドキュメントに単一のラベルを割り当てるために使用されます。1 月 6 日から、カスタム分類はマルチラベル分類もサポートします。マルチラベル分類では、複数のラベルでモデルをトレーニングし、ドキュメントを分類できます。

たとえば、マルチラベル分類を使用して、顧客対応の文字起こしを 1 つまたは複数のラベルでカテゴリ分けし、支払い、更新、技術サポートなどの社内の部門を識別することができます。こうしたラベルを、サポートライブラリの関連コンテンツにマッピングしたり、社内の該当する担当部門に振り分けたりすることができます。

この記事では、要旨から学術論文の主題を予測する方法を見てみましょう (データソース: Yang et al. 2018.Sequence Generation Model for Multi-Label Classification)。カスタム分類は、2 段階のプロセスです。まず、関心があるラベルを認識するようにカスタム分類子をトレーニングします。次の画像では、各行に要旨と該当するラベルを含む CSV ファイルを作成しています。

comprehend_multilabel.zip から、Comprehend がサポートする入力形式で、上記のデータセットのサブサンプルをダウンロードできます。

次に、Amazon Comprehend コンソールで分類子をトレーニングします。マルチラベルモードを選択し、トレーニングデータが保存されている S3 ロケーションを指示し、他の設定を指定します。開発者ガイドの詳細な手順を参照してください。

カスタム分類の 2 番目の手順では、Amazon Comprehend が分類子をトレーニングした後、コンソールまたは StartDocumentClassificationJob API を使用して、分類するラベルがないドキュメントを送信します。この例では、1 行に 1 つのドキュメントがあるファイルで推論を実行します。

マルチクラスまたはマルチラベルのどちらのカスタム分類子をトレーニングしたかに応じて、分類 API は各ドキュメントを調べ、コンテンツを最もよく表す特定のラベル (マルチクラスの場合) またはコンテンツを最もよく表すラベルのセット (マルチラベルの場合) を返します。ここでの分析ジョブでは、以下のような出力が得られます。

1 行の詳細を示す例を以下に示します。

出力は、各要旨に当てはまるすべての主題とそれに関連するスコアを示しています。

また、カスタムマルチラベル分類子を使用してエンドポイントを作成して、リアルタイムアプリケーションを有効にすることもできます。同期推論用のエンドポイントの作成の詳細については、こちらをご覧ください。

Amazon Comprehend のマルチラベル分類は、Amazon Comprehend を使用できるすべての AWS リージョンで利用可能になりました。この新しい機能は、コードフリー環境のAmazon Comprehend コンソールにログインするか、AWS SDK をダウンロードするとお試しいただけます。この機能の詳細については、 ドキュメントも合わせてご覧ください。

この記事で使用しているデータセットは、CC BY 4.0 の下でライセンスされている Yang et al.2018.Sequence Generation Model for Multi-Label Classification の一部として利用可能になった、AAPD データセットの編集、サブサンプリング、再フォーマットされたバージョンです。ライセンスのコピーは、こちらから入手できます。


著者について

Sameer Karnik は、AWS の自然言語処理サービス Amazon Comprehend の製品をリードするシニアプロダクトマネージャです。