AWS Neuron 引入了推测解码和 vLLM 支持

发布于: Apr 18, 2024

今天，AWS 宣布发布 Neuron 2.18，为 PyTorch 2.1 引入了稳定支持（测试版外），添加了具备 vLLM 支持的连续批处理，并在 Transformers NeuronX 库中添加了对 Llama-2-70B 样本的推测解码的支持。

AWS Neuron 是基于 Amazon EC2 Inferentia 和 Trainium 的实例的 SDK，专为生成式人工智能而构建。Neuron 与 PyTorch 和 TensorFlow 等常用 ML 框架集成。Neuron 包括编译器、运行时系统、工具和库，用于支持在 Trn1 实例和 Inf2 实例上对生成式人工智能模型进行高性能训练和推理。

此次发布还为 LLM 训练和推理增加了新的功能和性能改进，并更新了 Neuron DLAMI 和 Neuron DLC。针对训练，NeuronX Distributed 增加了异步检查点支持、自动分区管道并行性，并在 PyTorch Lightning Trainer（测试版）中引入了管道并行性。针对推断，Transformers NeuronX 通过增加对 SafeTensor 检查点格式的支持提高了权重加载性能，并为 Mixtral-8x7B-v0.1 和 mistralai/Mistral-7B-Instruct-v0.2 添加了新样本。NeuronX Distributed 和 PyTorch NeuronX 增加了对自动分桶的支持。

您可以使用 AWS Neuron SDK 在 Trn1 和 Inf2 实例上训练和部署模型，这些实例在 AWS 区域以按需型实例、预留实例和竞价型实例的形式提供，或者作为节省计划的一部分提供。

有关 Neuron 2.18 新功能和增强功能的完整列表，请访问 Neuron 发行说明。要开始使用 Neuron，请参阅：
AWS Neuron
Inf2 实例
 Trn1 实例

AWS Neuron 引入了推测解码和 vLLM 支持

终止对 Internet Explorer 的支持