亚马逊AWS官方博客
使用 Amazon SageMaker 微调 WizardCoder 模型
本篇文章主要介绍如何使用 Amazon SageMaker 进行 WizardCoder 模型微调的示例。
这个示例主要包括:
- WizardCoder 总体介绍
- WizardCoder 微调介绍
- WizardCoder 环境设置
- WizardCoder 微调训练
前言
随着 ChatGPT 的腾空出世, 国内外各种基座大语言竞相出炉,在其基础上衍生出种类繁多的应用场景。训练优异的基座大语言模型在通用性方面表现较好,但模型可能并未涉及到特定领域的专业术语、领域内的特定用语或上下文等。采用微调技术可以通过在领域特定数据上进行训练,使模型更好地适应目标领域的特殊语言模式和结构; 结合基座模型的通用性和领域特定性,使得模型更具实际应用价值。
WizardCoder 总体介绍
AI 代码助手可以有效的帮助程序员提高编程效率、减少错误,并提供智能化的代码建议和优化方案。目前很多团队在使用大语言模型充当 AI 代码助手的角色。然而,大多数现有的模型仅仅是在大量的原始代码数据上进行预训练,而没有进行指令微调。因而 WizardLM 团队研究提出了 WizardCoder,它通过将 Evol-Instruct 方法应用于代码领域,为 Code LLM 提供复杂的指令微调。已经在代码相关任务中取得了卓越的性能。
在 HumanEval、HumanEval+、MBPP 以及 DS1000 四个代码生成基准测试中,WizardCoder 在很大程度上超过了所有其他开源 Code LLM。此外,WizardCoder 在 HumanEval 和 HumanEval + 上的表现甚至超过了最大的闭源 LLM,如 Anthropic 的 Claude 和谷歌的 Bard。
WizardCoder 微调介绍
模型微调主要分为 Full Fine-Tune 和 PEFT(Performance-Efficient Fine-Tune),前者模型全部参数都会进行更新,训练时间较长,训练资源较大; 而后者会冻结大部分参数、微调训练网络结构,常见的方式是 LoRA 和 P-Tuning v2。
PEFT 微调方式由于参数更新较少,可能导致模型无法学习到全部领域知识,对于特定任务或领域来说会出现推理不稳定的情况,因此大多数生产系统均使用全参数方式进行模型的微调。基于上述原因,本文会以全参数微调方式介绍 WizardCoder 在 SageMaker 上的微调。
WizardCoder 环境设置
备注:项目中的示例代码均保存于代码仓库,地址如下: https://github.com/aws-samples/llm-workshop-on-amazon-sagemaker
- 升级 Python SDK
- 获取运行时资源,包括区域、角色、账号、S3 桶等
WizardCoder 微调训练
微调准备
克隆代码
- WizardCoder 基于 LlaMa 架构进行了 Evol-Instruct 方法的指令微调,因此采用 lm-sys 团队发布的 FastChat 平台进行 WizardCoder 的微调,FastChat 也用于训练了知名的 Vicuna 模型,具有良好的代码规范和性能优化
下载 WizardCoder 原始模型
拷贝模型和数据到 S3
模型微调
- 模型的微调使用全参数模型,以实现微调后模型的稳定性
- 模型的微调使用开源框架 DeepSpeed 进行加速
准备基础镜像
使用 SageMaker 定制的深度学习训练镜像作为基础镜像,再安装WizardCoder训练所需的依赖包。Dockerfile 如下:
模型微调代码
模型微调源代码较多,细节可以参考上述 git 仓库。
微调参数
- 为了节省显存,采用 DeepSpeed Stage-3
- 训练过程开启 bf16,实现整数范围和精度的平衡
- 数据集采用官方提供的 alpaca_data.json,也就是典型的{“instruction”、”input”、”output”}的格式
微调脚本
- 微调使用 torchrun + DeepSpeed 进行分布式训练
启动微调
- 全参数微调,需要使用至少一台 p4de.12xlarge(8卡 A100 40GB)作为训练机器
- 当微调完成后,训练好的模型自动存储于指定的 S3 桶内,可用于后续的模型部署推理
总结
大语言模型方兴未艾,正在以各种方式改变和影响着整个世界。客户拥抱大语言模型,亚马逊云科技团队同样在深耕客户需求和大语言模型技术,可以在未来更好的协助客户实现需求、提升业务价值。