Amazon SageMaker 推出支持 Tensorrt-LLM 的新版本大模型推理 DLC

发布于: Nov 27, 2023

今天，Amazon SageMaker 推出了支持 NVIDIA TensorRT-LLM 库的新版本 (0.25.0) 大模型推理 (LMI) 深度学习容器 (DLC)。通过这一升级，客户可以轻松使用最先进的工具在 SageMaker 上优化大型语言模型 (LLM)。与之前的版本相比，Amazon SageMaker LMI Tensorrt-LLM DLC 将 Llama2-70B、Falcon-40B 和 Codellama-34b 型号的延迟平均降低了 33%，吞吐量平均提高了 60%。

LLM 最近在各种应用程序中得到了前所未有的普及。但是，这种模型通常太大，无法安装在单个加速器或 GPU 设备上，因此很难实现低延迟推断和规模化应用。Amazon SageMaker 提供的 LMI 深度学习容器 (DLC) 可以帮助客户最大限度地利用可用资源并提高性能。最新的 LMI DLC 可以为推理请求提供持续的批处理支持以提高吞吐量，可以提供高效的推理集中操作以改善延迟，而来自 NVIDIA 的最新 Tensorrt-LLM 库可以最大限度地提高 GPU 性能。LMI Tensorrt-LLM DLC 可以提供低代码接口，只需要模型 ID 和可选的模型参数即可简化使用 Tensorrt-LLM 进行的编译；构建 Tensorrt-LLM 优化模型所需的所有繁重工作均由 LMI DLC 处理。客户还可以通过 LMI DLC 来利用最新的量化技术（GPTQ、AWQ 和 SmoothQuant）。

可以使用 SageMaker 的所有 AWS 区域都支持这些新的 LMI DLC。要详细了解如何开始使用，请参阅 AWS ML 博客、大模型推理 DLC 文档和示例笔记本。

Amazon SageMaker 推出支持 Tensorrt-LLM 的新版本大模型推理 DLC

终止对 Internet Explorer 的支持