亚马逊AWS官方博客
如何使用 Hugging Face LLM DLC 部署大型语言模型到 Amazon SageMaker
本篇文章主要介绍如何使用新的 Hugging Face LLM 推理容器将开源 LLMs,比如 BLOOM 部署到亚马逊 SageMaker 进行推理的示例。我们将部署 12B Open Assistant Model,这是一款由开放助手计划训练的开源 Chat LLM。
这个示例包括:
- 设置开发环境
- 获取全新 Hugging Face LLM DLC
- 将开放助手 12B 部署到亚马逊 SageMaker
- 进行推理并与我们的模型聊天
- 清理环境
什么是 Hugging Face LLM Inference DLC?
Hugging Face LLM DLC 是一款全新的专用推理容器,可在安全的托管环境中轻松部署 LLM。DLC 由文本生成推理(TGI)提供支持,这是一种用于部署和服务大型语言模型(LLM)的开源、专门构建的解决方案。TGI 使用张量并行和动态批处理为最受欢迎的开源 LLM(包括 StarCoder、BLOOM、GPT-Neox、Llama 和 T5)实现高性能文本生成。文本生成推理已被 IBM、Grammarly 等客户使用,Open-Assistant 计划对所有支持的模型架构进行了优化,包括:
- 张量并行性和自定义 cuda 内核
- 在最受欢迎的架构上使用 flash-attention 优化了用于推理的变形器代码
- 使用 bitsandbytes 进行量化
- 连续批处理传入的请求 以增加总吞吐量
- 使用 safetensors 加速重量加载(启动时间)
- Logits 扭曲器(温度缩放、topk、重复惩罚…)
- 用大型语言模型的水印添加水印
- 停止序列,记录概率
- 使用服务器发送事件(SSE)进行 Token 流式传输
官方支持的模型架构目前为:
- BLOOM/BLOOMZ
- MT0-XXL
- Galactica
- SantaCoder
- gpt-Neox 20B(joi、pythia、lotus、rosey、chip、redPajama、open Assistant)
- FLAN-T5-XXL(T5-11B)
- Llama(vicuna、alpaca、koala)
- Starcoder/santaCoder
- Falcon 7B/Falcon 40B
借助亚马逊 SageMaker 上推出的全新 Hugging Face LLM Inference DLC,AWS 客户可以从支持高度并发、低延迟 LLM 体验的相同技术中受益,例如 HuggingChat、OpenAssistant 和 Hugging Face Hub 上的 LLM 模型推理 API。
让我们开始吧!
1.设置开发环境
我们将使用 SageMaker python SDK 将 OpenAssistant/pythia-12b-sft-v8-7k-steps 部署到亚马逊 SageMaker。我们需要确保配置一个 AWS 账户并安装 SageMaker python SDK。
如果你打算在本地环境中使用 SageMaker。您需要访问具有 SageMaker 所需权限的 IAM 角色。你可以在这里找到更多关于它的信息。
2. 获取全新 Hugging Face LLM DLC
与部署常规的 HuggingFace 模型相比,我们首先需要检索容器 URI 并将其提供给我们的 HuggingFaceModel 模型类,并使用 image_uri 指向该镜像。要在亚马逊 SageMaker 中检索新的 HuggingFace LLM DLC,我们可以使用 SageMaker SDK 提供的 get_huggingface_llm_image_uri 方法。此方法允许我们根据指定的 “后端”、“会话”、“区域” 和 “版本” 检索所需的 Hugging Face LLM DLC 的 URI。你可以在这里找到可用的版本。
要将 [Open Assistant Model](openAssistant/Pythia-12b-sft-v8-7K-steps)部署到亚马逊 SageMaker,我们创建了一个 HuggingFaceModel 模型类并定义了我们的终端节点配置,包括 hf_model_id、instance_type 等。我们将使用 g5.4xlarge 实例类型,它有 1 个 NVIDIA A10G GPU 和 64GB 的 GPU 内存。
在我们创建了 HuggingFaceModel 之后,我们可以使用 deploy 方法将其部署到亚马逊 SageMaker。我们将使用 ml.g5.4xlarge 实例类型部署模型。TGI 将自动在所有 GPU 上分发和分片模型。
SageMaker 现在将创建我们的端点并将模型部署到该端点。这可能需要 10-15 分钟。
4. 进行推理并与我们的模型聊天
部署终端节点后,我们可以对其进行推理。我们将使用 predictor 中的 predict 方法在我们的端点上进行推理。我们可以用不同的参数进行推断来影响生成。参数可以设置在 parameter 中设置。截至今天,TGI 支持以下参数:
- 温度:控制模型中的随机性。较低的值将使模型更具确定性,而较高的值将使模型更随机。默认值为 0。
- max_new_tokens:要生成的最大 token 数量。默认值为 20,最大值为 512。
- repeption_penalty:控制重复的可能性,默认为 null。
- seed:用于随机生成的种子,默认为 null。
- stop:用于停止生成的代币列表。生成其中一个令牌后,生成将停止。
- top_k:用于 top-k 筛选时保留的最高概率词汇标记的数量。默认值为 null,它禁用 top-k 过滤。
- top_p:用于核采样时保留的参数最高概率词汇标记的累积概率,默认为 null。
- do_sample:是否使用采样;否则使用贪婪的解码。默认值为 false。
- best_of:生成 best_of 序列如果是最高标记 logpros 则返回序列,默认为null。
- details:是否返回有关世代的详细信息。默认值为 false。
- return_full_text:是返回全文还是只返回生成的部分。默认值为 false。
- truncate:是否将输入截断到模型的最大长度。默认值为 true。
- typical_p:代币的典型概率。默认值为 null。
- 水印:生成时使用的水印。默认值为 false。
你可以在 swagger 文档中找到 TGI 的开放 api 规范。
openAssistant/Pythia-12b-sft-v8-7K-steps 是一种对话式聊天模型,这意味着我们可以使用以下提示与它聊天:
让我们先试一试,问一下夏天可以做的一些很酷的想法:
现在,我们将使用不同的参数进行推理,以影响生成。参数可以通过输入的 parameters 属性定义。这可以用来让模型在 “机器人” 回合后停止生成。
现在让我们构建一个快速 gradio 应用程序来和它聊天。
程序运行成功后,显示如下聊天窗口:
太棒了!我们已经成功地将 Open Assistant 模型部署到亚马逊 SageMaker 并对其进行了推理。此外,我们还构建了一个快速的 gradio 应用程序,可以与我们的模型聊天。
现在,您到了可以使用亚马逊 SageMaker 上全新 Hugging Face LLM DLC 构建世代人工智能应用程序的时候了。
5. 清理环境
我们可以删除模型和端点。
如果您想在 SageMaker 上测试和运行上面的例子,可以在 github 地址(https://github.com/VerRan/sagemaker-llm/blob/main/sagemaker-notebook-OpenAssistant:pythia-12B.ipynb)获取完整的 notebook。
6. 总结
从上面的部署过程,我们可以看到整个部署过程非常简单,这个主要得益于 SageMaker Hugging Face LLM DLC 的支持,还可以通过将 SageMaker 部署的端点与您的应用集成,满足实际的业务需求。