发布于: Mar 18, 2024

现在,当你结合使用 Amazon SageMaker 和新集成的 NVIDIA NIM 推理微服务时,在 NVIDIA 加速计算基础设施上运行大型语言模型 (LLM) 可以实现更高的性价比。SageMaker 是一项完全托管的服务,可以轻松构建、训练和部署机器学习和 LLM,并且 NIM(NVIDIA AI Enterprise 软件平台的一部分)为使用 LLM 的推理提供了高性能 AI 容器。

在为生成式人工智能使用案例大规模部署 LLM 时,客户通常使用 NVIDIA GPU 加速实例和高级框架(如 NVIDIA Triton 推理服务器NVIDIA TensorRT-LLM)来加速和优化 LLM 的性能。现在,结合使用 Amazon SageMaker 和 NVIDIA NIM 的客户可以在 SageMaker 上快速部署经过优化的 LLM,并将部署时间从几天缩短到几分钟。

NIM 为各种热门的 LLM 提供容器,这些 LLM 针对推理进行了优化。支持开箱即用的 LLM 包括 Llama 2(7B、13B 和 70B)、Mistral-7b-Instruct、Mixtral-8x7b、NVIDIA Nemotron-3 8B 和 43B、StarCoder 以及使用预构建的 NVIDIA TensorRT™ 引擎的 StarCoderPlus。这些模型采用最优的超参数进行精心设计,以确保 NVIDIA GPU 上的高性能部署。对于其他模型,NIM 还为您提供了创建 GPU 优化版本的工具。首先,使用通过 NVIDIA API 目录提供的 NIM 容器,并通过创建推理端点将其部署到 Amazon SageMaker 上。

在推出 Amazon SageMaker 的所有 AWS 区域均可访问 NIM 容器。要了解更多信息,请参阅我们的发布博客