什么是生成式人工智能模型?
生成式人工智能模型既有优势也有局限性。根据使用案例的复杂性、性能、隐私和成本要求,某些模型可能比其他模型更适合。本指南探讨选择生成式人工智能模型时需要考虑的因素及最佳实践。
生成式人工智能模型可根据用户的自然语言输入,创造出原创且有意义的文本、图像、音频和视频内容。组织正将这些模型应用于各个方面,从为聊天机器人提供支持、创建设计模板,到解决生物学领域的复杂难题,均涵盖其中。现存数千种专有和开源人工智能模型,且每天都有新模型和改进版本问世。
尽管生成式人工智能模型具有灵活性和多功能性,但其并非适用于所有使用案例的万能解决方案。人工智能团队必须精心筛选和评测可优化恒本和性能的最佳模型。评测模型很复杂。Helm 和 Hugging Face 排行榜等热门基准测试,仅提供特定人工智能模型在常见自然语言任务中表现的概览。人工智能团队必须针对自定义数据输入采取不同的策略,以评测模型输出,并从中选择最符合其需求的方案。
生成式人工智能模型如何针对不同使用案例进行评测?
针对使用案例选择合适的人工智能模型时,需要考虑以下因素。
模态
模态是指模型处理的数据类型:嵌入、图像(视觉)或文本。有些模型属于单模态,可高效处理单一数据类型。其他模型则属于多模态,可集成多种数据类型,但可能对特定类型数据的处理效果更佳。例如,Claude、Llama 3.1 或 Titan Text G1 等模型适用于基于文本的任务,而 Stable Diffusion XL 和 Titan 图像生成器 v2 则更适合视觉任务。同样,Titan 多模态嵌入 G1 模型更适合将任何输入图像或文本转换为嵌入,该嵌入可在同一语义空间中同时承载图像与文本的语义含义。
模型大小
模型大小是指模型内部参数或配置变量的数量。参数的数量可能从数百万到 1000 亿以上不等,大多数模型拥有 100 亿至 1000 亿个参数。模型大小直接决定模型从数据中学习的能力。参数更多的模型表现更优,因为这些模型可深度理解新数据。然而,其自定义和运营成本也更高。
推理延迟
推理延迟通常是实时场景中的关注点,因为人工智能应用程序用户可能期望获得即时响应。这是模型处理输入并根据输入长度返回输出的总耗时。架构复杂的生成式人工智能模型,其推理速度可能比小型模型更慢。然而,推理延迟会因预期提示和模型性能而有所不同。最终用户输入令牌(如字母、标点符号等)数量的增加也可能导致延迟增加。
上下文窗口
生成式人工智能模型的上下文窗口是指其在任意时刻能够“记住”用于上下文处理的令牌数量。采用更大上下文窗口的模型可保留更多先前对话内容,从而提供更相关的响应。因此,对于对长文档进行摘要或支持多轮对话等复杂任务,更倾向于采用更大的上下文窗口。
定价注意事项
模型运行成本包括专有模型的使用成本以及计算成本和内存成本。运营成本可能因模型而异,具体取决于工作负载。权衡成本与收益,确保您获得最佳投资回报。例如,运行 Claude 2 或 Command R+ 会产生基于使用量的费用,因为这些是专有模型;而部署 Llama 2 7B 的计算成本更低。然而,如果专有模型可以显著提高任务的准确性或效率,其额外成本属合理费用。
响应质量
您可以使用多种指标以评测人工智能模型的响应质量,例如
- 准确率:模型响应正确的频率
- 相关性:响应对给定输入的契合程度。
- 稳健性:模型在面对故意设计用于迷惑模型的误导性输入时表现如何。
- 毒性:模型输出中不当内容或偏见的百分比。
这些指标通常会参照预先配置的基准进行衡量。最佳实践是评测多个不同模型在相同输入数据集上的响应质量,然后选择响应质量最高的模型。
生成式人工智能模型选择过程是什么?
生成式人工智能模型的选择首先需要您确定人工智能应用程序的具体需求。确保您了解用户期望、数据处理要求、部署注意事项以及业务间和行业内的其他细微之处。然后,您可以通过质量测试逐步淘汰不同的人工智能模型,直至找到最符合您需求的最佳模型。
步骤 1 — 初步模型筛选
首先从成千上万的模型中筛选出约 20 个符合您要求的候选模型,以启动整个流程。在开源模型和专有模型之间做出选择,等同于完成一半的工作。确定模型类型后,即可根据前文所述的关键标准(如模态、模型大小、上下文窗口等)进一步评测候选模型。
开源和专有的生成式人工智能模型
开源模型具备灵活性,允许团队根据专有数据对模型进行微调或完全重新训练。这在专业领域尤为重要,因为通用模型在小众使用案例中往往表现欠佳。例如,大型保险公司可能更倾向于使用自定义数据训练开源模型,而非采用针对金融行业设计但又无法完全满足其特定需求的专有模型。
然而,开源模型需要关注其他注意事项。开原模型可能导致安全和法律风险,这要求组织实施自身的合规措施并彻底审查许可条款。另一方面,专有模型通常具备内置安全功能、对训练数据和输出结果的赔偿保障以及合规性保证,这可降低注重风险管控的企业运营成本。
步骤 2 — 检查输出并进一步缩小列表范围
在此步骤中,您的目标是确定最适合您使用案例的前 3 种生成式人工智能模型。首先,确定一组符合您使用案例的测试提示子集。然后,对每个模型的输出进行目视检查,以确认是否符合特定提示的要求。查找与您的输入最匹配且包含更多详细信息的输出。选择生成最相关、最详细且最准确输出的前 3 种模型。
Amazon SageMaker Clarify 最适合用于此阶段。其使用准确性、稳健性和毒性等指标,自动评测生成式人工智能使用案例的基础模型,以便支持负责任的人工智能计划。
步骤 3 — 基于使用案例的基准测试
现在,您可以根据预定义的提示和输出,针对特定测试数据集更详细地评测精选的人工智能模型。关键因素在于构建全面的测试数据集,该数据集需覆盖使用案例的所有方面并包含多种变体。您还应设定相应的理想输出,从而以统计方式评测哪个模型的输出最接近您的理想输出。
Amazon Bedrock 提供评测工具,同时通过模型评测功能,以评测、比较和选择适用于使用案例的人工智能模型。
您可以采用三种评测方法。
程序化
使用传统自然语言算法和各种指标(如 BERT Score、F1 以及其他精确匹配技术)评测模型输出。借助 Amazon Bedrock,您可以使用内置的提示数据集,也可使用自带数据集,以进行评测。
人机闭环
让人工评测员(团队成员、最终用户样本组或专业的人工智能评测员)根据预先设定的模型指标,对所有三种模型的输出进行评测。他们可以手动将实际输出与理想输出进行对比,或者如果使用案例过于宽泛,可根据自身最佳判断以评测和标记输出。
借助 Amazon Bedrock,您可以与团队共同评测模型输出,或让 AWS 根据自定义提示数据集的响应进行评测,评测指标包括相关性、风格、品牌之声契合度或内置指标。
充当评测员的其他人工智能模型
在此方法中,其他人工智能模型以无偏见的方式评测这三种模型的输出。这种方法最适用于输出定义明确且其与理想输出之间的相似度可以统计方式进行测量的使用案例。Amazon Bedrock 允许您在 LLM-as-a-judge 模式下使用其他人工智能模型评测模型输出。您可以使用自定义提示数据集,其中包含正确性、完整性和危害性等指标,以及拒绝回答和危害性等负责任的人工智能指标。
步骤 4 — 最终选择
结合评测数据与成本及性能分析,选定最终模型。借助 Amazon Bedrock,您可以使用评测中的比较功能,查看对提示、被评测的模型作出任何更改后,结果有何不同。在同一位置查看所有分析数据,并选择可在性能、成本和相关风险之间实现最佳平衡且高效利用资源的模型。
为使用案例选择合适的生成式人工智能模型,需要采取结构化方法,以在技术能力、业务需求和运营限制之间取得平衡。关键在于让您的决策与使用案例的具体要求保持一致。根据模态、大小、数据处理能力及部署注意事项等因素,对模型进行细致评测。最终,合适的模型可提升效率和创新能力,并为组织未来基于人工智能的进步提供可扩展的基础。