テキスト分析とは

テキスト分析は、コンピュータシステムを使用して、人間が書いたテキストを読んで理解し、ビジネスのインサイトを得るためのプロセスです。テキスト分析ソフトウェアは、テキストから情報を個別に分類、並べ替え、抽出して、パターン、関係、感情、およびその他の実用的な知識を識別できます。テキスト分析を使用して、E メール、ドキュメント、ソーシャルメディアコンテンツ、製品レビューなどの複数のテキストベースのソースを人間のように効率的かつ正確に処理できます。

テキスト分析が重要な理由

企業はテキスト分析を使用して、さまざまな非構造化データソースから実用的なインサイトを抽出します。企業は、意思決定を行うのに、E メール、ソーシャルメディア、顧客調査の回答などのソースからのフィードバックに依拠しています。ただし、そのようなソースからの膨大な量のテキストは、テキスト分析ソフトウェアなしでは追いつかないことが分かりました。

テキスト分析を使用すると、ソースからより迅速に正確な情報を取得できます。プロセスは完全に自動化されており、一貫性があり、処理可能なデータが示されます。例えば、テキスト分析ソフトウェアを使用すると、ソーシャルメディアの投稿で否定的な感情をすぐに検出できるため、問題の解決に取り組むことができます

感情分析

感情分析または意見マイニングは、テキスト分析手法を使用して、テキストで伝えられた意見を理解します。レビュー、ブログ、フォーラム、およびその他のオンラインメディアの感情分析を使用して、顧客が購入に満足しているかどうかを判断できます。感情分析は、新しい傾向を見つけ、感情の変化を追跡し、PR の問題に取り組むのに役立ちます。感情分析を使用して特定のキーワードを特定することにより、顧客の意見の変化を追跡し、問題の根本的な原因を特定できます。 

記録管理

テキスト分析は、ドキュメントの効率的な管理、分類、および検索につながります。これには、患者の記録管理の自動化、ブランドに対するコメントのモニタリング、保険金詐欺の検出が含まれます。例えば、LexisNexis Legal & Professional は、テキスト抽出を使用して、2 億のドキュメントの中から特定のレコードを識別します。

カスタマーエクスペリエンスのパーソナライズ

テキスト分析ソフトウェアを使用して、E メール、レビュー、チャット、およびその他のテキストベースの連絡を処理できます。顧客の好み、購買習慣、および全体的なブランド認知に関するインサイトを利用して、さまざまな顧客セグメントに合わせてパーソナライズされたエクスペリエンスをもたらすことができます。 

テキスト分析の仕組み

テキスト分析の中核は、単語を特定の意味に関連付け、非構造化データのセマンティックコンテキストを理解するようにコンピュータソフトウェアをトレーニングすることです。これは、人間が単語を物、行動や感情に関連付けることによって新しい言語を学習する方法に似ています。 

テキスト分析ソフトウェアは、深層学習と自然言語処理の原則に基づいて動作します。

深層学習

人工知能は、コンピュータに人間のように考えることを教えるデータサイエンスの分野です。機械学習は、特定の方法を使用してコンピュータを教えたり訓練したりする人工知能の一手法です。深層学習は、人間の脳を模倣するニューラルネットワークまたはソフトウェア構造を使用する高度に専門化された機械学習方法です。深層学習テクノロジーはテキスト分析ソフトウェアを強化するため、ネットワークは人間の脳と同じようにテキストを読み取ることができます。

自然言語処理

自然言語処理 (NLP) は、人間が作成した自然なテキストから自動的に意味を引き出す機能をコンピュータにもたらす人工知能の一分野です。言語モデルと統計を使用して、手書きのテキスト画像を含むテキストデータを処理および分析する深層学習テクノロジーをトレーニングします。 光学文字認識 (OCR) などの NLP 手法は、画像内の単語を見つけて理解することにより、テキスト画像をテキストドキュメントに変換します。

テキスト分析手法のタイプ

テキスト分析ソフトウェアは、これらの一般的な手法を使用します。

テキストの分類

テキストの分類では、テキスト分析ソフトウェアは、特定のキーワードを特定のトピック、ユーザーの意図、または感情に関連付ける方法を学習します。これは、次の方法を使用して行います。 

  • ルールベースの分類は、セマンティックコンポーネントや構文パターンの事前定義されたルールに基づいてテキストにタグを割り当てます。
  • 機械学習ベースのシステムは、例を使用してテキスト分析ソフトウェアをトレーニングし、テキストのタグ付けの精度を高めることで機能します。同システムは、ナイーブベイズ、サポートベクターマシン、深層学習などの言語モデルを使用して、構造化データを処理し、単語を分類し、それらの間の意味的理解を深めます。

例えば、好意的なレビューには、多くの場合、良い、速いすごいなどの単語が含まれています。 しかし、否定的なレビューには、不満、遅い悪いなどの単語が含まれる場合があります。データサイエンティストは、テキスト分析ソフトウェアをトレーニングして、そのような特定の用語を探し、レビューをポジティブまたはネガティブに分類します。このようにして、カスタマーサポートチームはレビューから顧客の感情を簡単にモニタリングできます。

テキスト抽出

テキスト抽出はテキストをスキャンし、重要な情報を引き出します。テキスト内のキーワード、製品属性、ブランド名、場所の名前などを識別できます。抽出ソフトウェアは、次の手法を用います。

  • 正規表現 (REGEX): これは、何を抽出する必要があるかの前提条件として機能する、フォーマットされたシンボルの配列です。
  • 条件付き確率場 (CRF): これは、特定のパターンやフレーズを評価してテキストを抽出する機械学習手法です。REGEX よりも洗練されていて柔軟性があります。 

例えば、テキスト抽出を使用して、ソーシャルメディアでのブランドの言及をモニタリングできます。ソーシャルメディアでブランドで触れられるたびに手動で追跡することは不可能です。テキスト抽出は、自社のブランドに言及があった場合にリアルタイムでアラートを発します。 

トピックモデリング

トピックモデリング手法は、非構造化テキストで発生する関連キーワードを特定し、トピックまたはテーマにグループ化します。これらの手法は、複数のテキストドキュメントを読み取り、ドキュメント内のさまざまな単語の頻度に基づいてテーマに分類できます。トピックモデリング手法は、ドキュメントをさらに分析するためのコンテキストを提供します。

例えば、トピックモデリング手法を使用して、スキャンしたドキュメントアーカイブを読み取り、ドキュメントを請求書、法的ドキュメントや顧客との契約に分類できます。次に、さまざまな分析方法を請求書に用いて財務インサイトを取得したり、顧客との契約に用いて顧客インサイトを取得したりできます。

PII リダクション

PII リダクションにより、ドキュメントから名前、住所、アカウント番号などの個人を特定できる情報 (PII) を自動的に検出し、削除します。PII リダクションは、プライバシーを保護し、現地の法律や規制を遵守するのに役立ちます。

例えば、サポートチケットやナレッジ記事を分析して、検索ソリューションにドキュメントをインデックスする前に PII を検出して削除することができます。その後、検索ソリューションでは、ドキュメントに PII が含まれなくなります。

テキスト分析の段階

テキスト分析を実装するには、体系的なプロセスに従い、次の 4 つの段階を経る必要があります。

ステージ 1 - データの収集

この段階では、内部または外部のソースからテキストデータを収集します。

内部データ

内部データは、ビジネスの内部にあり、すぐに利用できるテキストコンテンツです。例えば、E メール、チャット、請求書、従業員アンケートなどです。 

外部データ

外部データは、ソーシャルメディアの投稿、オンラインレビュー、ニュース記事、オンラインフォーラムなどのソースで見つけることができます。外部データは自らが管理しているわけではないため、取得するのはより困難です。外部データを抽出するには、ウェブスクレイピングツールを使用するか、サードパーティーソリューションと統合する必要がある場合があります。

ステージ 2 - データの準備

データの準備は、テキスト分析の重要な部分です。これには、raw テキストデータを分析可能な形式に構造化することが含まれます。テキスト分析ソフトウェアはプロセスを自動化し、次の一般的な自然言語処理 (NLP) 手法が関与します。 

トークン化

トークナイゼーションとは、raw テキストを意味のある複数の部分に分離することです。例えば、「text analytics benefits businesses 」というフレーズは、textanalyticsbenefitsbusinesses という単語にトークン化します。

品詞タグ付け

品詞タグ付けは、トークン化されたテキストに文法タグを割り当てます。例えば、この手順を前述のトークンに用いると、text: 名詞、analytics: 名詞、benefits: 動詞、businesses: 名詞になります。

構文解析

構文解析は、トークン化された単語と英語の文法との間に意味のあるつながりを確立します。これは、テキスト分析ソフトウェアが単語間の関係を視覚化するのに役立ちます。 

レマタイゼーション

レマタイゼーションは、単語を辞書形式または見出語に単純化する言語プロセスです。例えば、英単語の visualizing の辞書形式は visualize です。

ストップワードの削除

ストップワードは、andorfor など、文に意味的なコンテキストをほとんどまたはまったく提供しない単語です。ユースケースによっては、ソフトウェアが構造化テキストからそれらを削除する場合があります。 

ステージ 3 - テキスト分析

テキスト分析はプロセスの中核部分であり、テキスト分析ソフトウェアはさまざまな手法を用いてテキストを処理します。 

テキストの分類

分類は、ルールまたは機械学習ベースのシステムに基づきテキストデータにタグを割り当てるプロセスです。

テキスト抽出

抽出には、テキスト内の特定のキーワードの存在を識別し、それらをタグに関連付けることが含まれます。ソフトウェアは、正規表現や条件付き確率場 (CRF) などの手法を用いてこれを行います。

ステージ 4 - 視覚化

視覚化とは、テキスト分析の結果をわかりやすい形式に変換することです。テキスト分析の結果は、グラフ、チャート、および表に表示されます。視覚化された結果は、パターンと傾向を特定し、アクションプランを構築するのに役立ちます。例えば、商品の返品が急増しているが、原因を見つけるのに問題があるとします。視覚化では、フィードバックで 欠陥間違ったサイズ適切ではないなどの単語を探し、それらをグラフにまとめます。すると、どちらが最優先すべき主要な問題であるかがわかります。 

テキスト解析とは

テキスト解析は、テキストの複数のサンプルのパターンを分析することで取得できる定量的なデータです。チャート、表、またはグラフで表示されます。 

テキスト分析とテキスト解析

テキスト分析は、何千ものフィードバックを分析した結果から、特定の傾向やパターンがあるかどうかを判断するのに役立ちます。一方、テキスト分析を使用して、顧客のフィードバックが肯定的か否定的かを判断できます。

テキストマイニングとは

テキストマイニングは、非構造化テキストを分析することによって定性的なインサイトを得るプロセスです。 

テキスト分析とテキストマイニング

テキスト分析とテキストマイニングに違いはありません。どちらの用語も、E メール、調査回答、ソーシャルメディアフィードなどのソースから貴重なインサイトを得る同じプロセスを指します。

Amazon Comprehend はどのように役立つか?

Amazon Comprehend は、機械学習を使用して、テキストからインサイトや関係性を発見するための自然言語処理 サービスです。これを使用して、ドキュメントから情報を自動的に分類および抽出することにより、ドキュメント処理ワークフローを簡素化できます。例えば、Amazon Comprehend を使用して、次のタスクを実行できます。

  • カスタマーサポートチケット、製品レビュー、ソーシャルメディアフィードなどの感情分析を実行する。 
  • Amazon Comprehend を Amazon Lex と統合して、インテリジェントな会話型チャットボットを開発する。
  • ドキュメントから医学用語を抽出し、Amazon Comprehend Medical を使用してそれらの間の関係を特定する。

今すぐ AWS アカウントを作成して使用を開始しましょう。

AWS での次のステップ