什么是 GPT?

生成式预训练 Transformer 模型,通常称为 GPT,是一系列使用 Transformer 架构的神经网络模型,是为 ChatGPT 等生成式人工智能应用程序提供支持的人工智能 (AI) 的一项关键进展。GPT 模型使应用程序能够创建类似人类的文本和内容(图像、音乐等),并以对话方式回答问题。各行各业的组织正在将 GPT 模型和生成式人工智能用于问答机器人、文本汇总、内容生成和搜索。

为什么 GPT 很重要?

GPT 模型,尤其是它们使用的 Transformer 架构,代表着 AI 研究的重大突破。GPT 模型的兴起是机器学习广泛采用的转折点,因为该技术现在可用于自动化和改进各种任务,从语言翻译和文档摘要到撰写博客文章、构建网站、设计视觉效果、制作动画、编写代码、研究复杂话题,甚至创作诗歌。这些模型的价值在于其速度和运行规模。例如,您可能需要几个小时来研究、撰写和编辑一篇关于核物理的文章,而 GPT 模型只需几秒钟就能生成一篇。GPT 模型引发了 AI 领域对于实现通用人工智能所做的研究,这项研究意味着机器可以帮助组织达到新的生产力水平,重塑其应用程序和客户体验。

GPT 有哪些应用场景?

GPT 模型是通用语言模型,可以执行各种任务,从创建原始内容到编写代码、汇总文本和从文档中提取数据,等等。

以下是使用 GPT 模型的一些方法:

创建社交媒体内容

数字营销人员可以借助人工智能 (AI) 为其社交媒体活动创建内容。例如,营销人员可以提示 GPT 模型制作讲解视频脚本。基于 GPT 的图像处理软件可以根据文本说明创建模因、视频、营销文案和其他内容。

将文本转换为不同的样式

GPT 模型可生成休闲、幽默、专业和其他风格的文本。这些模型使业务专员能以不同的形式重写特定的文本。例如,律师可以使用 GPT 模型将法律副本转换为简单的解释性说明。 

编写和学习代码

作为语言模型,GPT 模型可以理解和编写不同编程语言的计算机代码。这些模型可以通过日常语言向学习者解释计算机程序,从而为其提供帮助。此外,有经验的开发人员可以使用 GPT 工具自动推荐相关的代码片段。

分析数据

GPT 模型可以帮助业务分析师高效地编译大量数据。语言模型会搜索所需的数据,计算结果并将其显示在数据表或电子表格中。一些应用程序可以在图表上绘制结果或创建综合报告。 

制作学习材料

教育工作者可以使用基于 GPT 的软件生成学习材料,例如测验和教程。同样,他们也可以使用 GPT 模型来评估答案。

构建交互式语音助手

GPT 模型允许您构建智能交互式语音助手。许多聊天机器人只会对基本的口头提示做出回应,但 GPT 模型可以生产具有对话式 AI 功能的聊天机器人。此外,结合其他 AI 技术时,这些聊天机器人还可以像人类一样进行口头交流。 

GPT 的工作原理

尽管将 GPT 模型描述为人工智能 (AI) 是准确的,但这是一个宽泛的描述。更具体地说,GPT 模型是以 Transformer 架构为基础构建的基于神经网络的语言预测模型。这些模型可以分析自然语言查询(称为提示),并根据对语言的理解预测最佳响应。

为此,GPT 模型依赖于他们使用数千亿个参数在海量语言数据集上进行训练后获得的知识。它们可以考虑输入的上下文并动态处理输入的不同部分,因而能够生成长篇回复,而不仅仅是序列中的下一个单词。例如,当被要求生成一段莎士比亚风格的内容时,GPT 模型会通过记住并重构具有相似文学风格的新短语和整句来实现。

神经网络有不同的类型,例如循环神经网络和卷积神经网络。GPT 模型是 Transformer 神经网络。Transformer 神经网络架构使用自注意力机制,在每个处理步骤中专注于输入文本的不同部分。Transformer 模型可以捕获更多上下文并提高处理自然语言处理 (NLP) 任务的性能。它有两个主要模块,我们接下来将对其进行解释。

阅读有关神经网络的信息 »

阅读有关自然语言处理 (NLP) 的信息 »

编码器 

Transformer 将文本输入预处理为嵌入,嵌入是单词的数学表示形式。在向量空间中编码时,距离较近的单词的含义预计会更接近。这些嵌入通过编码器组件进行处理,编码器组件会从输入序列中捕获上下文信息。当它收到输入时,Transformer 网络的编码器模块会将单词分成几个嵌入,并为每个嵌入式分配权重。权重是表示句子中单词相关性的参数。

此外,通过位置编码器,GPT 模型可以防止在句子的其他部分使用单词时产生歧义。例如,位置编码允许 Transformer 模型区分这些句子之间的语义差异: 

  • 一只狗在追一只猫
  • 一只猫在追一只狗

因此,编码器将处理输入句子,并生成固定长度的向量表示形式,即嵌入。 解码器模块就使用这种表示形式。

解码器

解码器使用向量表示来预测请求的输出。它内置了自注意力机制,可以专注于输入的不同部分并猜测匹配的输出。复杂的数学技术可以帮助解码器估计几种不同的输出,并预测最准确的输出。

与循环神经网络等前代产品相比,Transformer 更具并行性,因为它们不会按顺序逐个处理单词,而是在学习周期中同时处理整个输入。正因为如此,再加上工程师花费了数千小时来微调和训练 GPT 模型,它们能够针对您提供的几乎所有输入流畅地做出回答。

GPT-3 是如何训练的?

在一篇已发表的研究论文中,研究人员将生成式预训练描述为使用未标记的数据训练语言模型并实现准确预测的能力。第一款 GPT 模型 GPT-1 于 2018 年开发。GPT-4 于 2023 年 3 月推出,是 GPT-3 的后继者。

GPT-3 使用超过 1750 亿个参数或权重进行训练。工程师通过来自 Web 文本、Common Crawl、书籍和维基百科等来源的超过 45TB 的数据对其进行了训练。在训练之前,随着模型从版本 1 发展到版本 3,数据集的平均质量得到了提高。 

GPT-3 在半监督模式下训练。首先,机器学习工程师向深度学习模型提供未标记的训练数据。GPT-3 会理解这些句子,将其分解,然后将它们重构成新的句子。在无监督训练中,GPT-3 试图自行生成准确、真实的结果。然后,机器学习工程师对有监督训练的结果进行微调,这个过程被称为人工反馈强化学习 (RLHF)。 

您可以在不进行任何进一步训练的情况下使用 GPT 模型,也可以针对特定任务使用一些示例对其进行自定义。

有哪些使用 GPT 的示例应用场景?

自推出以来,GPT 模型已将人工智能 (AI) 带入了各个行业的众多应用。下面是一些示例:

  • GPT 模型可用于分析客户反馈并将其总结为易于理解的文本。首先,您可以从调查、评论和实时聊天等来源收集客户情绪数据,然后可以让 GPT 模型汇总数据。
  • GPT 模型可用于使虚拟角色能够在虚拟现实中与人类玩家自然交谈。
  • GPT 模型可用于为帮助中心人员提供更好的搜索体验。它们可以使用对话语言查询产品知识库,以检索相关的产品信息。

AWS 如何帮助您运行像 GPT-3 这样的大型语言模型?

Amazon Bedrock 是使用大型语言模型(也称为根基模型 (FM),类似于 GPT-3)构建和扩展生成式人工智能应用程序最简单的方法。Amazon Bedrock 允许您通过 API 访问领先的人工智能初创公司的根基模型,包括 AI21 Labs、Anthropic 和 Stability AI,以及 Amazon 最新的根基模型系列 Amazon Titan 系列。借助 Bedrock 的无服务器体验,您可以快速入门,使用自己的数据专门自定义 FM,并使用您熟悉的 AWS 工具和功能(包括与 Amazon SageMaker ML 功能的集成,例如用于测试不同模型的 Experiments 和用于大规模管理 FM 的 Pipelines)轻松集成并将它们部署到应用程序中,而无需管理任何基础设施。在 Amazon Bedrock 上了解有关使用根基模型进行构建的更多信息。

机器学习后续步骤