文本分类是什么?
文本分类是利用人工智能和机器学习(AI/ML)系统为开放式文本文档分配预先确定的类别的过程。许多组织都有大规模文档存档和业务工作流程,可以持续大规模生成文档,例如法律文档、合同、研究文档、用户生成的数据和电子邮件。文本分类是为进一步分析而对这些数据进行组织、结构化和分类的第一步。它可以自动为文档添加标签和标记。这为您的组织节省了数千小时人工阅读、理解和分类文档的时间。
文本分类将带来什么益处?
组织可以出于以下原因使用文本分类模型。
提高准确度
文本分类模型几乎不需要额外训练,就能准确地对文本进行分类。它们可以帮助组织消除手动分类文本数据时可能出现的人为错误。此外,相较于人工分类,在为不同主题的文本数据分配标签时,文本分类系统能够获得更加一致的结果。
提供实时分析
当要实时处理文本数据时,组织将面临时间压力。利用文本分类算法,您可以从原始数据中获取可操作的见解,并构建即时回应。例如,组织可以使用文本分类系统来分析客户反馈,并立即回应紧急请求。
扩展文本分类任务
组织以前依赖手动或基于规则的系统来对文档进行分类。这些方法速度慢,消耗资源过多。通过基于机器学习的文本分类,您可以更有效地跨部门扩展文档分类工作,为组织的发展提供支持。
翻译语言
组织可以利用文本分类器进行语言检测。文本分类模型可以检测对话或服务请求的原始语言,并将它们引向相应的团队。
文本分类的应用场景有哪些?
组织使用文本分类来提高客户满意度、员工工作效率和业务成果。
情绪分析
文本分类通过提取表明客户情绪的特定单词,使组织能够在多个渠道上有效管理品牌。通过使用文本分类进行情绪分析,还能让营销团队利用定性数据准确预测购买趋势。
例如,您可以使用文本分类工具分析社交媒体帖子、问卷调查、聊天对话或其他文本资源中的客户行为,并相应地规划营销活动。
内容审核
企业通过社区团体、社交媒体和论坛扩大受众。依靠人工审核员对用户讨论进行管理是一件极其困难的事情。使用文本分类模型,您可以自动检测可能违反社区准则的单词、短语或内容。这样您就可以立即采取行动,确保对话在安全、规范的环境中进行。
文档管理
在处理和整理文档,为业务运营提供支持方面,许多组织都面临着挑战。文本分类器可以检测缺失的信息,提取特定的关键词,并识别语义关系。您可以使用文本分类系统对消息、评论和合同等文档进行标记,并将它们分类到相应类别中。
客户支持
当客户向支持团队寻求帮助时,他们希望得到及时而准确的回应。基于机器学习技术的文本分类器可让客户支持团队将收到的请求转发给相关人员。例如,文本分类器会检测到支持工单中的单词换货,然后将请求发送到保修部门。
文本分类的方法有哪些?
作为自然语言处理技术的子集,文本分类已经取得了长足的发展。我们将分享机器学习工程师用于分类文本数据的几种方法。
自然语言推理
自然语言推理通过将假设和前提标记为蕴含、矛盾或中立,来确定它们之间的关系。“蕴涵”描述了前提和假设之间的逻辑关系,而“矛盾”则显示了文本实体之间的脱节。当既找不到“蕴含”,也找不到“矛盾”时,则采用“中立”。
例如,考虑以下前提:
我们的球队是足球锦标赛的冠军。
自然语言推理分类器采用以下方式对不同假设做出标记。
- 蕴含:我们的团队喜欢运动。
- 矛盾:我们是不锻炼的人。
- 中立:我们成为了足球冠军。
概率语言建模
概率语言建模是一种统计学方法,当给定单词序列时,语言模型使用它来预测下一个单词。使用这种方法,模型为每个单词分配一个概率值,然后计算后续单词的可能性。应用于文本分类时,概率语言建模会根据文本中发现的特定短语,对文档进行分类。
词嵌入
词嵌入是一种将数值表示应用于单词的技术,可以捕捉单词的语义关系。词嵌入是单词的数值等价物。机器学习算法无法有效地分析原始形式的文本。使用词嵌入,语言建模算法可以通过文本的嵌入,来比较不同的文本。
要使用词嵌入,必须训练自然语言处理(NLP)模型。在训练期间,模型将相关单词与在被称为向量语义的多维空间中紧密放置的数值表示相关联。
例如,当使用嵌入对文本进行向量化时,您会发现在二维向量空间中,狗和猫彼此之间比番茄、人类和岩石更接近。您可以使用向量语义来识别陌生数据中的相似文本并预测后续短语。这种方法在情感分类、文档组织和其他文本分类任务中很有帮助。
大型语言模型
大型语言模型(LLM)是基于海量文本数据训练的深度学习算法。它们基于转换器架构,这是一个具有多个隐藏层的神经网络,能够并行处理文本数据。大型语言模型比简单模型更强大,并在多种自然语言处理任务中表现出色,其中就包括文本分类。
与前者不同,大型语言模型无需事先训练即可对文本进行分类。它们使用零样本分类,这种方法允许模型将未见过的文本数据归入预定义的类别。例如,您可以在 Amazon Sagemaker Jumpstart 上部署零样本文本分类模型,将新年愿望帖子按事业、健康、财务和其他类别进行分类。
如何评估文本分类性能?
在为业务应用程序部署文本分类器之前,必须对其进行评估,以确保它们不会出现欠拟合的情况。欠拟合现象是指,机器学习算法在训练中表现良好,但无法准确地对现实世界数据进行分类。要评估文本分类模型,我们需要使用交叉验证方法。
交叉验证
交叉验证是一种模型评估技术,可将训练数据分成较小的组。然后,每个组被分成若干样本,用于训练和验证模型。该模型首先使用分配的样本进行训练,然后使用剩余的样本进行测试。然后,我们将模型的结果与人工标注的结果进行比较。
评测标准
对于评测中的文本分类模型,我们可以根据多个标准对其进行评估。
- 准确度描述了与总预测相比,文本分类器做出了多少正确的预测。
- 精确度反映了模型持续正确预测特定分类的能力。如果文本分类器产生的误报较少,即表示它较精确。
- 召回率衡量的是与所有正面预测相比,模型在成功预测正确分类方面的一致性。
- F1 分数计算精确度和召回率的调和平均数,以提供模型准确度的均衡概览。
如何实现文本分类?
您可以按照以下步骤构建、训练和部署文本分类模型。
编制训练数据集
在训练或微调用于文本分类的语言模型时,准备高质量的数据集非常重要。多样化且带有标签的数据集可以让模型有效地学习识别特定的单词、短语或模式,以及它们各自的类别。
准备数据集
机器学习模型无法从原始数据集中学习。因此,必须使用令牌化等预处理方法清理和准备数据集。令牌化将每个单词或句子分成较小的部分(称为令牌)。
令牌化后,应从训练数据集中删除冗余、重复和异常的数据,因为它们可能会影响模型性能。然后,将数据集拆分为训练数据和验证数据。
训练文本分类模型
选择并通过准备好的数据集训练语言模型。在训练过程中,模型会从经过标注的数据集中学习,并尝试将文本分类到相应的类别。当模型持续收敛到相同结果时,即表示训练完成。
评估和优化
使用测试数据集评测模型。将模型的精确度、准确度、召回率及 F1 分数与既定基准进行比较。经过训练的模型可能需要进一步微调,以解决过拟合和其他性能问题。优化模型,直到获得满意的结果。
文本分类面临哪些挑战?
组织可以使用商用或公共的文本分类资源实现文本分类器神经网络。然而,在某些行业中,有限的数据可能会使训练数据集的策划工作变得困难。例如,医疗保健公司要训练分类模型,可能需要获取医疗数据集方面的帮助。
训练和微调机器学习模型既昂贵又耗时。此外,模型可能过拟合或欠拟合,导致在实际应用场景中的性能无法做到始终一致。
您可以使用开源机器学习库构建文本分类器。但是,您需要专业的机器学习知识和多年的软件开发经验,才能对分类器进行训练、编程并将其与企业应用程序集成。
AWS 如何帮助您满足文本分类要求?
Amazon Comprehend 是一项 NLP 服务,可使用机器学习发现文本中有价值的见解和关联。自定义分类 API 让您无需学习机器学习技术,即可使用特定业务标签轻松构建自定义文本分类模型。
例如,您的客户支持组织可以使用自定义分类,根据客户对问题的描述自动按问题类型对入站请求进行分类。使用您的自定义模型,您可以轻松调整网站评论、对客户反馈进行分类,以及整理工作组文档。
Amazon SageMaker 是一项完全托管的服务,可以针对任何使用案例准备数据以及构建、训练和部署机器学习模型。它拥有完全托管的基础设施、工具和工作流程。
借助 Amazon SageMaker JumpStart,您可以访问预训练模型和基础模型(FM),并针对您的应用场景,使用您的数据对这些模型进行自定义。SageMaker JumpStart 为许多常见的机器学习应用场景提供一键式端到端解决方案。您可以使用它分类文本、总结文档、识别手写内容、提取关系、进行问答,以及填补表格记录中的缺失值。
立即创建账户,开始在 Amazon Web Services(AWS)上使用文本分类。