跳至主要内容

什么是自然语言处理(NLP)?

什么是自然语言处理(NLP)?

自然语言处理(NLP)是一种可让计算机解释、操纵和理解人类语言的技术。如今,组织具有来自各种通信渠道(例如电子邮件、短信、社交媒体新闻源、视频、音频)的大量语音和文本数据。自然语言处理在对这些数据进行分析以获取可行的商业见解方面起着关键作用。组织能够对语言数据进行分类、排序、筛选,并理解其中隐藏的意图或情绪。自然语言处理是人工智能驱动的自动化技术的一个关键特征,它支持机器与人类之间的实时交流。

为什么 NLP 非常重要?

自然语言处理已集成到几乎所有与人类交流相关的现代自动化工作流程之中。您与之交流的每一个聊天机器人都由自然语言处理提供支持,大多数人工智能工具也是如此。随着全球产生的非结构化文本和语音数据量比以往任何时候都要多,NLP 使企业能够将沟通转化为一种竞争优势。

历史

NLP 起源于 20 世纪 50 年代,当时研究人员首次尝试了机器翻译。其中最早的一个里程碑是 1954 年的 Georgetown-IBM 实验,该实验能够将 60 个俄语句子自动翻译成英语。

NLP 技术在 20 世纪 90 年代和 21 世纪初开始流行起来,其应用包括垃圾邮件过滤、文档分类以及基本的聊天机器人等。然而,转折点出现在 2010 年代,当时深度学习模型开始兴起。他们使用神经网络架构来分析数据序列,从而能够对更长的文本块进行分析。组织可以使用 NLP 来挖掘隐藏在电子邮件、客户反馈、支持票证以及社交媒体帖子中的有价值信息。

人工智能中的 NLP

生成式人工智能技术标志着自然语言处理领域取得重大突破。软件现在可以创造性地做出响应,不再仅仅局限于处理信息,而是能够实现自然语言生成。具有 NLP 功能的人工智能代理可以实时总结会议、起草电子邮件和翻译对话。

有哪些适用于企业的 NLP 使用案例?

公司会使用自然语言处理来完成多项自动化任务,例如:

  • 处理、分析和存档大型文档。
  • 分析客户反馈或呼叫中心录音
  • 运行聊天机器人实现自动化客户服务
  • 回答“人员-事件-时间-地点”问题
  • 分类和提取文本

企业使用自然语言处理(NLP)软件和工具高效和准确地简化、自动化和梳理运营。下面,我们给出一些使用案例示例。

敏感数据消减

保险、法律和医疗保健领域的企业对大量敏感文档(如病历、金融数据和私人数据)进行处理、排序和检索。公司使用 NLP 技术删节个人身份信息并保护敏感数据,而非通过手动审核。例如,Chisel AI 通过 Amazon Comprehend 帮助保险公司从非结构化文档中提取保单编号、到期日期和其他个人客户属性。

客户参与

NLP 技术使聊天机器人和语音机器人在与客户交谈时更像人类。企业使用聊天机器人扩展客户服务功能和质量,同时将运营成本降至最低。PubNub 构建聊天机器人软件,使用 Amazon Comprehend 向其全球客户推出本地化聊天功能。T-Mobile 使用 NLP 识别客户短信中的特定关键字并提供个性化推荐。俄克拉荷马州立大学使用机器学习技术部署问答聊天机器人解决方案,解决学生问题。

业务分析

营销人员使用 Amazon Comprehend 和 Amazon Lex 等 NLP 工具了解客户对公司产品或服务的感受。通过扫描特定的短语,他们可以衡量客户书面反馈中的情绪和情感。例如,Success KPI 提供自然语言处理解决方案,帮助企业专注于情绪分析中的目标领域,同时帮助联系中心从呼叫分析中获得切实可行的见解。

自然语言处理有哪些方法?

以下提供一些常用的自然语言处理(NLP)方法。

监督 NLP

监督 NLP 方法使用一套已标记或已知的输入和输出来训练软件。该程序首先处理大量已知数据,并学习如何从任何未知输入生成正确输出。例如,公司训练 NLP 工具根据特定标签对文档进行分类。

非监督 NLP

非监督 NLP 使用统计语言模型预测在提供非标签输入时出现的模式。例如,文本消息收发中的自动完成功能通过监控用户的回复来建议对句子有含义的相关字词。 

自然语言理解

自然语言理解(NLU)是 NLP 的一个子集,专注于分析句子背后的含义。NLU 使该软件能够在不同的句子中找到类似含义或处理具有不同含义的字词。

自然语言生成

自然语言生成(NLG)专注于根据特定关键字或主题生成像人类对话一样的对话文本。例如,具有 NLG 功能的智能聊天机器人能够以类似于客户支持人员行为的方式与客户交谈。

什么是 NLP 任务?

自然语言处理(NLP)技术或 NLP 任务将人类文本或语音分解为计算机程序可以轻松理解的较小部分。以下提供 NLP 中常见的文本处理和分析功能。

词性标注

在此流程中,NLP 软件根据上下文用法(例如名词、动词、形容词或副词)标记句子中的单个字词。其帮助计算机理解字词如何相互形成有含义的关系。

词义消歧

一些字词用于不同场景时可能具有不同的含义。例如,字词“bat”在以下句子中的含义不同:

  • bat(蝙蝠)是一种夜间活动的生物。
  • 棒球运动员使用 bat(棒球拍)击球。

借助词义消歧,NLP 软件通过训练语言模型或参考字典定义来识别字词的预期含义。

语音识别

语音识别将语音数据转换为文本。该流程涉及将字词分解为较小的部分,并且理解日常对话中的口音、辱骂、语调和语法使用不当。语音识别的一个关键应用是转录,可使用 Amazon Transcribe 等语音转文本服务完成转录。

机器翻译

机器翻译软件使用自然语言处理将文本或语音从一种语言转换为另一种语言,同时保留上下文的准确性。支持机器翻译的 AWS 服务是 Amazon Translate

命名实体识别

此流程可识别人物、地点、活动、公司等的唯一名称。NLP 软件使用命名实体识别确定句子中不同实体之间的关系。

考虑如下示例:“Jane 前往法国度假,她沉迷于品尝当地的美食。”

NLP 软件将挑选“Jane”和“法国”作为句子中的特殊实体。这可以通过共同引用解决方案进一步扩展,确定是否使用不同的字词描述同一个实体。在以上示例中,“Jane”和“她”指向同一个人。

情绪分析

情绪分析是一种用于解释文本数据传达的情感的人工智能方法。NLP 软件会分析文本中是否存在表现不满、快乐、怀疑、遗憾和其他隐藏情感的字词或短语。

NLP 中有哪些技术?

自然语言处理(NLP)结合计算语言学、预测性人工智能和深度学习模型处理人类语言。

计算语言学

计算语言学是使用计算机和软件工具理解和构建人类语言模型的科学。研究人员使用计算语言学方法(例如语法和语义分析)创建框架,从而帮助机器理解对话式人类语言。语言翻译器、文本转语音合成器和语音识别软件等工具都基于计算语言学。

预测性人工智能

预测性人工智能,也称为机器学习或深度学习,这是一种通过样本数据训练计算机以执行特定任务的技术。此领域涉及神经网络,该网络由结构类似人脑的数据处理节点组成。计算机借助深度学习识别、分类和关联输入数据中的复杂模式。

人类语言有一些特征,例如讽刺、隐喻、句子结构变化,以及人类需要数年才能学习的语法和特殊用法。程序员使用预测性方法教授 NLP 应用程序从一开始就识别和准确理解这些特征。

传统的神经网络使用编码器/解码器架构模式处理数据序列。编码器读取和处理整个输入数据序列,例如英语句子,并将其转换为紧凑的数学表示形式。这种表示形式是捕获输入本质的摘要。然后,解码器会根据此摘要逐步生成输出序列。这可能是用另一种语言表述的同一句话,或者是关于句子意图和情绪的信息。

生成式人工智能

生成式人工智能技术使用转换器,即包含自我注意力机制的神经网络。该机制不是按顺序处理数据,而是使模型能够同时查看序列的不同部分,并确定哪些部分最重要。

由于采用了自注意力机制,转换器能够从更大的数据集中学到知识,并能够处理非常长的文本。在这些文本中,遥远位置的信息会影响接下来内容的意义。

NLP 如何工作?

一般来说,NLP 实现首先从来源(例如云数据仓库、调查、电子邮件或内部业务流程应用程序)收集和准备非结构化文本或语音数据。

预处理

NLP 软件使用预处理技术(例如分词、词干、词形还原和停用词删除)为各种应用程序准备数据。

下面介绍这些技术:

  • 分词是将句子分解为单个单元的字词或短语。
  • 词干和词形还原将字词简化为词根形式。例如,这些流程将“starting(正在开始)”转换为“start(开始)”。
  • 删除停用词可确保删除对句子没有重要含义的字词,例如“为”和“与”。

训练

研究人员使用预处理的数据和机器学习训练 NLP 模型,以便根据提供的文本信息执行特定应用程序。训练 NLP 算法需要向软件提供大量数据样本,以提高算法的准确性。

部署和推理

然后,人工智能专家将部署模型或将其集成到现有的生产环境中。NLP 模型接收输入并预测其为特定使用案例设计的输出。可以在实时数据上运行 NLP 应用程序,并获得所需的输出。

AWS 如何帮助您完成 NLP 任务?

AWS 为具备各种专业知识水平的客户提供了最广泛、最齐全的一套人工智能服务。这些服务与一整套数据来源连接。

立即创建 AWS 账户,开始使用 NLP。

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

正在加载
正在加载
正在加载
正在加载
正在加载

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages