テキスト分類とは何ですか?

テキスト分類は、人工知能と機械学習 (AI/ML) システムを使用して、自由形式のテキスト文書に所定のカテゴリを割り当てるプロセスです。多くの組織には、法的文書、契約書、研究文書、ユーザー生成データ、E メールなど、大量の文書を継続的に生成する大規模な文書アーカイブとビジネスワークフローがあります。テキスト分類は、このデータをさらに分析できるように整理、構造化、分類するための最初のステップです。文書のラベル付けとタグ付けを自動的に行うことができます。これにより、文書を手作業で読み、理解し、分類する必要があった時間を何千時間も節約できます。

テキスト分類にはどのような利点がありますか?

組織がテキスト分類モデルを使用する理由は次のとおりです。

精度を向上させる

テキスト分類モデルは、追加のトレーニングをほとんどまたはまったく行わずにテキストを正確に分類します。これらは、テキストデータを手動で分類するときに人間が犯す可能性のあるエラーを組織が克服するのに役立ちます。さらに、さまざまなトピックにわたるテキストデータにタグを割り当てる場合、テキスト分類システムは人間よりも一貫性があります。

リアルタイム分析を行う

テキストデータをリアルタイムで処理する場合、組織は時間との闘いに直面します。テキスト分類アルゴリズムを使用すると、生データから実用的なインサイトを引き出し、即時の対応策を立てることができます。例えば、組織はテキスト分類システムを使用して顧客からのフィードバックを分析し、緊急のリクエストにすぐに対応できます。

テキスト分類タスクをスケールする

これまで、組織は手動またはルールベースのシステムで文書を分類していました。これらの方法は時間がかかり、大量のリソースを消費します。機械学習によるテキスト分類により、文書分類の取り組みを部門間でより効果的に拡大し、組織の成長をサポートできます。

言語を翻訳する

組織はテキスト分類子を使用して言語を検出できます。テキスト分類モデルを使用すると、会話やサービスリクエストの元の言語を検出して、それぞれのチームに伝えることができます。

テキスト分類のユースケースにはどのようなものがありますか?

組織はテキスト分類を使用して、顧客満足度、従業員の生産性、およびビジネス成果を向上させています。

感情分析

テキスト分類により、組織は顧客の感情を示す特定の単語を抽出することで、複数のチャネルでブランドを効果的に管理できます。感情分析にテキスト分類を使用すると、マーケティングチームは定性データを使用して購買傾向を正確に予測することもできます。

例えば、テキスト分類ツールを使用して、ソーシャルメディアの投稿、調査、チャットでの会話、またはその他のテキストリソースにおける顧客の行動を分析し、それに応じてマーケティングキャンペーンを計画できます。

コンテンツのモデレーション

企業は、コミュニティグループ、ソーシャルメディア、フォーラムで視聴者を増やしています。人間のモデレーターに頼る場合、ユーザーディスカッションを規制することは困難です。テキスト分類モデルを使用すると、コミュニティのガイドラインに違反する可能性のある単語、フレーズ、またはコンテンツを自動的に検出できます。これにより、直ちに行動を起こし、安全で規制の厳しい環境で会話が確実に行われるようにすることができます。

ドキュメント管理

多くの組織は、事業運営を支援するためのドキュメントの処理と分類において課題に直面しています。テキスト分類子は、欠落している情報を検出し、特定のキーワードを抽出し、意味的関係を識別できます。テキスト分類システムを使用して、メッセージ、レビュー、契約などの文書にラベルを付けたり、それぞれのカテゴリに分類したりできます。

カスタマーサポート

顧客は、サポートチームに助けを求めるとき、タイムリーで正確な対応を期待しています。機械学習を活用したテキスト分類子により、カスタマーサポートチームは受信したリクエストを適切な担当者に転送できます。例えば、テキスト分類子はサポートチケット内の単語「交換」を検出し、保証部門にリクエストを送信します。

テキスト分類にはどのようなアプローチがあるでしょうか?

テキスト分類は、自然言語処理のサブセットとして大きく進化してきました。機械学習エンジニアがテキストデータを分類するために使用するいくつかのアプローチをご紹介します。

自然言語推論

自然言語推論は、仮説と前提を「含意」、「矛盾」、または「中立」と分類することで、仮説と前提の関係を決定します。含意は前提と仮説の間の論理的な関係を説明しますが、矛盾はテキストのエンティティ間の断絶を示します。含意も矛盾も見つからない場合は、中立が適用されます。

例えば、次の前提を考えてみましょう。

私たちのチームはサッカー選手権の優勝チームでした。

自然言語推論分類子がさまざまな仮説をタグ付けする方法は次のとおりです。

含意: 私たちのチームはスポーツをするのが好きです。
矛盾: 私たちはトレーニングしない人たちです。
中立: 私たちはサッカーチャンピオンになりました。

確率的言語モデリング

確率的言語モデリングは、一連の単語が与えられたときに言語モデルが次の単語を予測するために使用する統計的アプローチです。このアプローチを使用して、モデルは各単語に確率値を割り当て、次の単語の出現確率を計算します。確率的言語モデリングをテキスト分類に適用すると、テキストに含まれる特定のフレーズに基づいてドキュメントが分類されます。

単語の埋め込み

単語の埋め込みは、意味的な関係を捉えた単語に数値表現を適用する手法です。単語の埋め込みは、単語の数値に相当します。機械学習アルゴリズムは、元の形式のテキストを効率的に分析できません。単語の埋め込みを使用すると、言語モデリングアルゴリズムは埋め込みによってさまざまなテキストを比較できます。

単語の埋め込みを使用するには、自然言語処理 (NLP) モデルをトレーニングする必要があります。トレーニング中、モデルは関連する単語に、ベクトルセマンティクスと呼ばれる多次元空間に近い位置にある数値表現を割り当てます。

例えば、埋め込みのあるテキストをベクトル化する場合、2 次元のベクトル空間では、トマト、人、岩よりも犬と猫が近くにいることがわかります。ベクトルセマンティクスを使用して、なじみのないデータ内の類似テキストを識別し、それ以降のフレーズを予測できます。このアプローチは、感情分類、文書整理、およびその他のテキスト分類タスクに役立ちます。

大規模言語モデル

大規模言語モデル (LLM) は、大量のテキストデータでトレーニングされたディープラーニングアルゴリズムです。これらは、テキストデータを並行して処理できる複数の隠れ層を備えたニューラルネットワークであるトランスフォーマーアーキテクチャに基づいています。大規模言語モデルは、単純なモデルよりも強力で、テキスト分類を含むさまざまな自然言語処理タスクに優れています。

以前のモデルとは異なり、大規模言語モデルは事前のトレーニングなしでテキストを分類できます。モデルで目に見えないテキストデータを事前定義されたカテゴリに分類する方法であるゼロショット分類を使用しています。たとえば、 Amazon Sagemaker Jumpstart にゼロショットテキスト分類モデルをデプロイして、新年の抱負の投稿をキャリア、健康、財務、その他のクラスに分類できます。

テキスト分類のパフォーマンスはどう評価したらよいのでしょうか?

ビジネスアプリケーションにテキスト分類子を導入する前に、テキスト分類子を評価して、アンダーフィットの影響を受けないことを確認する必要があります。アンダーフィットとは、機械学習アルゴリズムがトレーニングではうまく機能するものの、現実世界のデータを正確に分類できない現象です。テキスト分類モデルを評価するには、交差検証法を使用します。

交差検証

交差検証は、トレーニングデータをより小さなグループに分割するモデル評価手法です。次に、モデルのトレーニングと検証のために、各グループをサンプルに分割します。モデルは最初に割り当てられたサンプルでトレーニングを行い、残りのサンプルでテストします。次に、モデルの結果を人間が注釈を付けた結果と比較します。

評価基準

テキスト分類モデルは、いくつかの基準と照らし合わせることで評価できます。

正確性は、テキスト分類子が行った正確な予測の数を、予測の合計数と比較して示します。
精度は、特定のクラスを一貫して正しく予測するモデルの能力を反映しています。テキスト分類子は、誤検出が少ないほど正確になります。
再現率は、すべてのポジティブな予測と比較して、正しいクラスの予測がモデルでどれほど一貫して行えるかを測定します。
F1スコアは、精度と再現率の調和平均を計算して、モデルの正確性のバランスの取れた概要を示します。

テキスト分類はどのように実装しますか?

テキスト分類モデルを作成、トレーニング、デプロイするには、次の手順に従います。

トレーニングデータセットをキュレートする

テキスト分類のための言語モデルのトレーニングや微調整を行う際には、高品質のデータセットを用意することが重要です。多様でラベル付けされたデータセットにより、モデルは特定の単語、フレーズ、パターン、およびそれぞれのカテゴリを効率的に識別できるようになります。

データセットを準備する

機械学習モデルは未加工のデータセットからは学習できません。そのため、トークン化などの前処理方法でデータセットをクリーンアップして準備する必要があります。トークン化は、各単語または文をトークンと呼ばれる小さな部分に分割します。

トークン化後は、モデルのパフォーマンスに影響する可能性があるため、冗長データ、重複データ、異常データをトレーニングデータセットから削除する必要があります。次に、データセットをトレーニングデータと検証データに分割します。

テキスト分類モデルをトレーニングする

準備したデータセットを使用して言語モデルを選択し、トレーニングします。トレーニング中、モデルは注釈付きのデータセットから学習し、テキストをそれぞれのカテゴリに分類しようとします。モデルが一貫して同じ結果に収束したら、トレーニングは完了です。

評価と最適化

テストデータセットを使用してモデルを評価します。モデルの精度、正確性、再現率、F1 スコアを、確立されたベンチマークと比較します。トレーニング済みのモデルでは、オーバーフィットやその他のパフォーマンスの問題に対処するために、さらに微調整が必要な場合があります。満足のいく結果が得られるまでモデルを最適化します。

テキスト分類にはどのような課題がありますか?

組織は、商用または公的に入手可能なテキスト分類リソースを使用して、テキスト分類ニューラルネットワークを実装できます。ただし、データが限られていると、特定の業界ではトレーニングデータセットのキュレーションが困難になる場合があります。例えば、医療企業が分類モデルをトレーニングするために、医療データセットを用意するのに支援が必要な場合があります。

機械学習モデルのトレーニングと微調整には、費用と時間がかかります。さらに、モデルがオーバーフィットまたはアンダーフィットして、実際のユースケースで一貫性のないパフォーマンスが生じる可能性があります。

オープンソースの機械学習ライブラリを使用してテキスト分類子を作成できます。ただし、分類子のトレーニング、プログラミング、エンタープライズアプリケーションとの統合には、機械学習に関する専門的な知識と長年のソフトウェア開発経験が必要です。

AWS はテキスト分類要件にどのように役立つでしょうか?

Amazon Comprehend は、機械学習を使用してテキストから貴重な洞察やつながりを発見する NLP サービスです。カスタム分類子 API を使用すると、ML を学習することなく、ビジネス特有のラベルを使用してカスタムのテキスト分類モデルを簡単に構築できます。

たとえば、カスタマーサポート組織はカスタム分類子を使用して、顧客がどのように問題を記述したかを元に、インバウンドリクエストを問題のタイプで自動的に分類できます。カスタムモデルを使用すると、ウェブサイトのコメントの調整、お客様からのフィードバックのトリアージ、ワークグループドキュメントの整理が簡単にできます。

Amazon SageMaker は、あらゆるユースケースに合わせてデータを準備し、ML モデルを構築、トレーニング、デプロイするためのフルマネージド型サービスです。インフラストラクチャ、ツール、ワークフローを完全に管理しています。

Amazon SageMaker JumpStart では、事前トレーニング済みモデルや基礎モデル (FM) にアクセスし、データを使用してユースケースに合わせてカスタマイズできます。SageMaker JumpStart は、多くの一般的な ML ユースケース向けにワンクリックで操作できるエンドツーエンドソリューションを提供しています。テキスト分類、文書要約、手書き認識、関係抽出、質問と回答、および表形式レコードの欠損値の入力に使用できます。

今すぐアカウントを作成して、アマゾンウェブサービス (AWS) でのテキスト分類を始めましょう。

テキスト分類とは?