发布于: Nov 27, 2023

今天,Amazon SageMaker 推出了支持 NVIDIA TensorRT-LLM 库的新版本 (0.25.0) 大模型推理 (LMI) 深度学习容器 (DLC)。通过这一升级,客户可以轻松使用最先进的工具在 SageMaker 上优化大型语言模型 (LLM)。与之前的版本相比,Amazon SageMaker LMI Tensorrt-LLM DLC 将 Llama2-70B、Falcon-40B 和 Codellama-34b 型号的延迟平均降低了 33%,吞吐量平均提高了 60%。

LLM 最近在各种应用程序中得到了前所未有的普及。但是,这种模型通常太大,无法安装在单个加速器或 GPU 设备上,因此很难实现低延迟推断和规模化应用。Amazon SageMaker 提供的 LMI 深度学习容器 (DLC) 可以帮助客户最大限度地利用可用资源并提高性能。最新的 LMI DLC 可以为推理请求提供持续的批处理支持以提高吞吐量,可以提供高效的推理集中操作以改善延迟,而来自 NVIDIA 的最新 Tensorrt-LLM 库可以最大限度地提高 GPU 性能。LMI Tensorrt-LLM DLC 可以提供低代码接口,只需要模型 ID 和可选的模型参数即可简化使用 Tensorrt-LLM 进行的编译;构建 Tensorrt-LLM 优化模型所需的所有繁重工作均由 LMI DLC 处理。客户还可以通过 LMI DLC 来利用最新的量化技术(GPTQ、AWQ 和 SmoothQuant)。 

可以使用 SageMaker 的所有 AWS 区域都支持这些新的 LMI DLC。要详细了解如何开始使用,请参阅 AWS ML 博客大模型推理 DLC 文档示例笔记本