什么是根基模型?

根基模型(FM)是基于海量数据集训练的大型深度学习神经网络,这些神经网络改变了计算机科学家处理机器学习(ML)的方式。数据科学家不是从头开始开发人工智能(AI),而是使用根基模型作为起点来开发机器学习模型,从而更快速、更经济高效地为新应用程序提供支持。根基模型一词由研究人员创造,用于描述机器学习模型,这些模型在广泛的广义和未标记数据上进行训练,能够执行各种一般性任务,例如理解语言、生成文本和图像以及使用自然语言进行对话。

根基模型有什么独特之处?

根基模型的一个独有特征是其适应性。这些模型可以根据输入提示高度准确地执行各种不同的任务。一些任务包括自然语言处理(NLP)、问题回答和图像分类。根基模型(FM)的规模和通用性质使其不同于传统的机器学习模型,后者通常执行特定的任务,例如分析文本中的情绪、对图像进行分类和预测趋势。

可以使用根基模型作为基础模型来开发更加专用的下游应用程序。这些模型是十多年开发工作的结晶,因此它们的规模和复杂性不断增加。

例如,最早的双向根基模型之一 BERT 于 2018 年发布。该模型使用 3.4 亿个参数和 16GB 的训练数据集进行训练。仅仅五年后,OpenAI 就在 2023 年使用 170 万亿个参数和 45GB 的训练数据集训练 GPT-4。根据 OpenAI 提供的数据,自 2012 年以来,根基建模所需的计算能力每 3.4 个月翻一番。当今的 FM,例如大型语言模型(LLM)Claude 2 和 Llama 2,以及 Stability AI 提供的文本到图像模型 Stable Diffusion,可以即时可用地执行跨越多个领域的各种任务,如撰写博客文章、生成图像、解决数学问题、参与对话和根据文档回答问题。

阅读有关大型语言模型的信息 »

为什么根基建模如此重要?

根基模型有望显著改变机器学习的生命周期。尽管目前从头开发根基模型要花费数百万美元,但从长远来看,它们可发挥重要作用。对于数据科学家来说,可以更快速、更经济地使用预先训练的 FM 开发新的机器学习应用程序,而不是从头开始训练独特的机器学习模型。

根基模型的一种潜在用途是自动执行任务和流程,尤其是需要推理能力的任务和流程。以下是根基模型的一些应用:

  • 客户支持
  • 语言翻译
  • 内容生成
  • 文案写作
  • 图像分类
  • 高分辨率图像创建和编辑
  • 文档提取
  • 机器人技术
  • 医疗保健
  • 自动驾驶汽车

根基模型如何运作?

根基模型是生成式人工智能的一种形式。这些模型以人类语言指令的形式从一个或多个输入(提示)中生成输出。模型基于复杂的神经网络,包括生成对抗网络(GAN)、转换器和变分编码器。

尽管每种类型的网络功能不同,但它们的工作原理是相似的。通常,FM 使用学习的模式和关系来预测序列中的下一个项目。例如,在生成图像时,模型会分析图像并创建更清晰、更明确定义的图像版本。同样,对于文本,模型会根据之前的单词及其上下文预测文本字符串中的下一个单词。然后,模型使用概率分布技术选择下一个单词。

根基模型使用自监督学习从输入数据创建标签。这意味着没有人使用带标签的训练数据集来指导或训练模型。此功能将 LLM 与以前的机器学习架构区分,后者使用有监督或无监督学习。

阅读有关机器学习的信息 »

阅读有关生成式人工智能的信息 »

根基模型可以实现哪些功能?

尽管根基模型已经过预训练,但其可以在推理过程期间持续从数据输入或提示中学习。这意味着可以通过精心策划的提示来形成全面的输出。FM 可以执行的任务包括语言处理、视觉理解、代码生成和以人为本的参与。

语言处理

这些模型具有回答自然语言问题的非凡能力,甚至能够根据提示撰写简短的脚本或文章。它们还可以使用 NLP 技术翻译语言。

视觉理解

FM 在计算机视觉方面表现出色,尤其是在识别图像和物理对象方面。这些功能可能会用于自动驾驶和机器人等应用。另一项功能是通过输入文本生成图像,以及编辑照片和视频。

代码生成

根基模型可以根据自然语言输入生成各种编程语言的计算机代码。也可使用 FM 评估和调试代码。

以人为本的参与

生成式人工智能模型使用人工输入来学习和改进预测结果。一种重要但有时被忽视的应用是这些模型能够支持人为决策。潜在用途包括临床诊断、决策支持系统和分析。

另一项功能是通过微调现有根基模型来开发新的人工智能应用程序。 

语音转文本

由于 FM 理解语言,因此可以将其用于语音转文本任务,例如各种语言的转录和视频字幕。

根基模型有哪些示例?

市场上根基模型的数量和规模都在快速增长。目前有几十种模型可供选择。以下是自 2018 年以来发布的著名根基模型列表。

BERT

基于转换器的双向编码器表示形式(BERT)于 2018 年发布,是最早的根基模型之一。BERT 是一种双向模型,它分析完整序列的上下文,然后进行预测。该模型在纯文本语料库和 Wikipedia 上进行训练,使用了 33 亿个令牌(单词)和 3.4 亿个参数。BERT 可以回答问题、预测语句和翻译文本。

GPT

生成式预训练转换器(GPT)模型由 OpenAI 于 2018 年开发。该模型使用带自注意力机制的 12 层转换器解码器。该模型在 BookCorpus 数据集上训练,此数据集包含超过 11,000 本免费小说。GPT-1 的一个显著特征是能够进行零样本学习。

GPT-2 于 2019 年发布。OpenAI 使用 15 亿个参数对此模型进行训练(而 GPT-1 上使用的参数仅为 1.17 亿个)。GPT-3 拥有 96 层神经网络和 1750 亿个参数,使用 5000 亿单词的 Common Crawl 数据集进行训练。广受欢迎的 ChatGPT 聊天机器人基于 GPT-3.5。最新版本 GPT-4 于 2022 年底推出,其成功通过了统一律师资格考试,得分为 297(76%)。

阅读有关 GPT 的更多信息 »

Amazon Titan

Amazon Titan FMs 在大型数据集上经过预先训练,使其成为功能强大的通用模型。这些模型可以按原样使用,也可以使用公司特定数据针对特定任务进行私有自定义,而无需注释大量数据。Titan 最初将提供两种模型。第一个模型是生成式 LLM,用于诸如摘要、文本生成、分类、开放式问答和信息提取等任务。第二个模型是嵌入 LLM,它将文本输入(包括单词、短语或大型文本单元)转换为包含文本语义含义的数字表示形式(称为嵌入)。虽然此 LLM 不会生成文本,但它对个性化和搜索等应用程序很有用,因为通过比较嵌入,该模型将产生比单词匹配更相关、更有语境的响应。为了持续支持负责任使用人工智能中的最佳实践,Titan FM 旨在检测和删除数据中的伤害性内容,拒绝用户输入中的不当内容,并筛选包含不当内容(例如仇恨言论、亵渎和暴力)的模型输出。

AI21 Jurassic

Jurassic-1 于 2021 年发布,是一款 76 层自回归语言模型,其具有 1780 亿个参数。Jurassic-1 生成人性化的文本并解决复杂的任务。它的性能可与 GPT-3 媲美。

2023 年 3 月,AI21 Labs 发布 Jurrassic-2,该模型提高了指令跟踪和语言能力。

Claude

Claude 2 是 Anthropic 最先进的模型,该模型擅长处理深思熟虑的对话、内容创作、复杂的推理、创造力和编程,并且采用 Constitutional AI 构建。Claude 2 在每个提示中最多可以占用 100,000 个令牌,这意味着它可以处理数百页的文本,甚至整本书。与之前的版本相比,Claude 2 还可以写作更长篇的文档,例如包含大约几千个令牌的备忘录和故事。

Cohere

Cohere 有两个 LLM:一个是功能与 GPT-3 相似的生成模型,另一个是用于理解语言的表示模型。尽管 Cohere 只有 520 亿个参数,但该模型在许多方面的表现都优于 GPT-3。

Stable Diffusion

Stable Diffusion 是一种文本到图像模型,可以生成外观逼真、高清晰度的图像。该模型于 2022 年发布,其扩散模型使用噪声和降噪技术来学习如何创建图像。

该模型的规模小于竞争对手的扩散技术(例如 DALL-E 2),这意味着它不需要广泛的计算基础设施。Stable Diffusion 可以在普通显卡上运行,甚至可以在搭载 Snapdragon Gen2 平台的智能手机上运行。

阅读有关 Stable Diffusion 的更多信息 »

BLOOM

BLOOM 是一种多语言模型,其架构与 GPT-3 类似。该模型于 2022 年开发,是一项由一千多名科学家和 Hugging Space 团队共同协作的项目。该模型有 1760 亿个参数,使用 384 个 Nvidia A100 GPU 进行为期 3.5 个月的训练。尽管 BLOOM 检查点需要 330GB 的存储空间,但它将在具有 16GB RAM 的独立 PC 上运行。BLOOM 可以用 46 种语言创建文本,以及用 13 种编程语言编写代码。

Hugging Face

Hugging Face 是提供开源工具的平台,供您构建和部署机器学习模型。该平台充当社区中心,开发人员可以在其中共享和探索模型与数据集。个人会员资格是免费的,但付费订阅可提供更高级别的访问权限。您可以公开访问近 20 万个模型和 30,000 个数据集。

根基模型面临哪些挑战?

对于其尚未接受过明确训练的主题,根基模型可以一致地响应提示。但是,这些模型存在某些弱点。以下是根基模型面临的一些挑战:

  • 基础设施要求。从头开始构建基础模型非常昂贵,需要大量资源,而且可能需要几个月的时间完成训练。
  • 前端开发。对于实际应用,开发人员需要将根基模型集成到软件堆栈中,包括用于快速工程、微调和管道工程的工具。
  • 缺乏理解。尽管根基模型可以提供语法上和事实上正确的答案,但它们很难理解提示的上下文。此外,这些模型不具备社交或心理意识。
  • 不可靠的答案。某些主题相关问题的答案可能不可靠,有时甚至不合适、令人极不愉快或不正确。
  • 偏见。根基模型很可能提供带偏见的答案,因为模型可以从训练数据集中提取仇恨言论和不恰当的暗示。为避免这种情况,开发人员应仔细筛选训练数据,并将特定规范编码到模型中。

AWS 如何提供帮助?

Amazon Bedrock 是使用根基模型构建和扩展生成式人工智能应用程序的最简单方法。Amazon Bedrock 是一项完全托管的服务,可通过 API 提供来自 Amazon 和领先 AI 初创企业的根基模型,因此您可以从各种 FM 中进行选择,找到最适合您的应用场景的模型。 借助 Bedrock,您可以加快开发和部署可扩展、可靠和安全的生成式人工智能应用程序,而无需管理基础设施。

Amazon SageMaker JumpStart 是推出各种模型、算法和解决方案的机器学习中心,它提供数百种根基模型的访问权限,包括性能最佳的公开根基模型。该中心持续添加新的根基模型,包括 Llama 2Falcon 和 Stable Diffusion XL 1.0

AWS 上的后续步骤

查看其他与产品相关的资源
使用最全面的 AI 和 ML 服务集更快地创新 
注册免费账户

立即享受 AWS 免费套餐。

注册 
开始在控制台中构建

在 AWS 管理控制台中开始构建。

登录