什么是文本分析？- 文本分析简介

什么是文本分析？

文本分析是指使用计算机系统阅读和理解人类编写的文本以便获得业务洞察的流程。文本分析软件可以独立地对文本中的信息进行分类、排序和提取，以确定模式、关系、观点和其他可指导行动的知识。您可以使用文本分析来像人类一样高效、准确地处理多个基于文本的源，例如电子邮件、文档、社交媒体内容和产品评论。

为什么文本分析很重要？

企业使用文本分析从众多非结构化数据源提取可指导行动的洞察。其根据来自源（例如电子邮件、社交媒体和客户调查回复）的反馈辅助决策。但是，如果没有文本分析软件，来自这些源的海量文本让人无从下手。

借助文本分析，您可以快速从这些源获得准确信息。该流程完全自动化并且具有一致性，其显示您可以采取行动的数据。例如，使用文本分析软件允许您即刻检测社交媒体文章中的不良情绪，以便您解决问题

情绪分析

情绪分析或观点挖掘使用文本分析方法理解一段文本中传达的观点。您可以对评论、博客、论坛和其他线上媒体使用情绪分析，以确定您的客户对其购物是否满意。情绪分析帮助您发现新的趋势、跟踪情绪变化以及解决 PR 问题。通过使用情绪分析和识别特定关键字，您可以跟踪客户观点的变化并识别问题的根本原因。

记录管理

文本分析可实现文档的高效管理、分类和搜索。这包括自动化患者记录管理、监控品牌提及以及检测保险欺诈。例如，LexisNexis Legal & Professional 使用文本提取从 2 亿份文档中识别特定记录。

个性化客户体验

您可以使用文本分析软件处理电子邮件、评论、聊天和其他基于文本的通信。借助对客户喜好、购买习惯和总体品牌认知的洞察，您可以为不同的客户群体量身定制个性化的体验。

如何进行文本分析？

文本分析的核心是训练计算机软件将字词与特定意义相关联以及理解非结构化数据的语义背景信息。这与人类通过将字词与物体、行动和情感相关联来学习新语言的过程类似。

文本分析软件基于深度学习和自然语言处理的原则工作。

深度学习

人工智能是数据科学领域，它教会计算机像人类一样思考。机器学习是人工智能范畴内的一种技术，使用特定方法教授或训练计算机。深度学习是一种高度专业化的机器学习方法，它使用模仿人脑的神经网络或软件结构。深度学习技术赋能文本分析软件，以便这些网络可以以与人类大脑相似的方式阅读文本。

自然语言处理

自然语言处理 (NLP) 是人工智能的一个分支领域，赋能计算机自动从人类创作的自然文本中获取意义。其使用语言模型和统计数据训练深度学习技术处理和分析文本数据，包括手写文本图像。 NLP 方法，例如光学字符识别 (OCR)，通过查找和理解图像中的字词将文本图像转化为文本文档。

文本分析技术有哪些类型？

文本分析软件使用以下常见技术。

文本分类

在文本分类中，文本分析软件学习如何将特定关键字与特定主题、用户意图或情绪相关联。其使用以下方法实现此功能：

基于规则的分类根据预定义的语义成分或语法模式规则为文本分配标签。
基于机器学习的系统通过示例训练文本分析软件并提高其标记文本的准确性。其使用语言模型（例如朴素贝叶斯、支持向量机和深度学习）处理结构化数据和分类字词，以及开发两者之间的语法理解。

例如，积极评价通常包含好、快和太棒了等字词。但是，消极评价可能包含不满意、慢和差等字词。数据科学家训练文本分析软件查找此类特定字词并将评价分类为积极或消极。这样，客户支持团队可以通过评论轻松监控客户情绪。

文本提取

文本提取扫描文本并提取关键信息。其可以识别一段文本中的关键字、产品属性、品牌名称、地点名称等。提取软件应用以下方法：

正则表达式 (REGEX)：指作为需提取内容前提条件的特定格式符号数组。
条件随机场 (CRFs)：指通过评估特定模式或短语提取文本的机器学习方法。其比 REGEX 更加精细和灵活。

例如，您可以使用文本提取监控社交媒体上的品牌提及。手动跟踪社交媒体上的每次品牌提及是不可能的。文本提取将实时提示您品牌提及。

主题建模

主题建模方法识别非结构化成本中出现的相关关键字并将它们分组为主题或话题。这些方法可以阅读多个文本文档并根据文档中多个字词的出现频率将这些文档按话题排列。主题建模方法为进一步分析文档提供背景信息。

例如，您可以使用主题建模方法通读扫描的文档归档并将文档分类为发票、法律文档和客户协议。然后，您可以将不同的分析方法用于发票以获得财务洞察，或者用于客户协议以获得客户洞察。

PII 修订

PII 修订会自动检测和删除文档中的个人身份信息（PII），例如姓名、地址或账号。PII 修订可帮助保护隐私和符合当地法律法规。

例如，您可以在索引搜索解决方案中的文档之前分析支持票证和知识文章来检测和修订 PII。在此之后，搜索解决方案将不包含文档中的 PII。

文本分析有哪些阶段？

要实施文本分析，您需要遵循包含 4 个阶段的系统性流程。

第 1 阶段 — 数据收集

在此阶段，您从内部或外部资源收集文本数据。

内部数据

内部数据是指企业内部的文本内容，随时可供使用，例如电子邮件、聊天、发票和员工调查。

外部数据

您可以在社交媒体文章、线上评论、新闻文章和线上论坛等资源中查找外部数据。由于外部数据超出您的控制，所以很难获取这些数据。您可能需要使用网页抓取工具或与第三方解决方案集成以提取外部数据。

第 2 阶段 — 数据准备

数据准备是文本提取的重要组成部分。其涉及以分析时可接受的格式结构化原始文本数据。文本分析软件自动化该流程并涉及以下常见自然语言处理 (NLP) 方法。

令牌化

令牌化将原始文本分隔为具有语义意义的多个部分。例如，短语文本分析有利于企业令牌化为字词文本、分析、有利于和企业。

词性标记

词性标记为令牌化的文本分配语法标签。例如，将此步骤应用于上述令牌化的结果后为文本：名词；分析：名词；有利于：动词；企业：名词。

解析

解析通过英语语法在令牌化的字词之间建立有意义的联系。其帮助文本分析软件可视化字词之间的关系。

词形还原

词形还原是指将字词简化为其在词典中的词形，或简化为词根形式的语言学流程。例如，visualizing 一词在词典中的词形为 visualize。

停用词删除

停用词是指在句中提供很少或不提供语义背景信息的字词，例如和、或以及为。根据使用场景，软件可能从结构化文本中删除停用词。

第 3 阶段 — 文本分析

文本分析是流程的核心组成部分，文本分析软件在该流程中使用不同的方法处理文本。

文本分类

分类是指基于规则或基于机器学习系统为文本数据分配标签的流程。

文本提取

提取涉及识别文本中是否存在特定关键字，并将这些关键字与标签相关联。软件使用正则表达式和条件随机场 (CRFs) 等方法执行此操作。

第 4 阶段 — 可视化

可视化是指将文本分析结果转化为易于理解的格式。您将看到以图形、图表和表格显示的文本分析结果。可视化的结果帮助您识别模式和趋势并构建行动计划。例如，假设您遇到产品退货激增，但是您无法找到原因。借助可视化，您可在反馈中寻找缺陷、尺寸错误或不太适合等字词，并将它们制成图表。然后，您将知道需要优先考虑的主要问题。