发布于: Apr 18, 2024

今天,AWS 宣布发布 Neuron 2.18,为 PyTorch 2.1 引入了稳定支持(测试版外),添加了具备 vLLM 支持的连续批处理,并在 Transformers NeuronX 库中添加了对 Llama-2-70B 样本的推测解码的支持。

AWS Neuron 是基于 Amazon EC2 Inferentia 和 Trainium 的实例的 SDK,专为生成式人工智能而构建。Neuron 与 PyTorch 和 TensorFlow 等常用 ML 框架集成。Neuron 包括编译器、运行时系统、工具和库,用于支持在 Trn1 实例和 Inf2 实例上对生成式人工智能模型进行高性能训练和推理。

此次发布还为 LLM 训练和推理增加了新的功能和性能改进,并更新了 Neuron DLAMI 和 Neuron DLC。针对训练,NeuronX Distributed 增加了异步检查点支持、自动分区管道并行性,并在 PyTorch Lightning Trainer(测试版)中引入了管道并行性。针对推断,Transformers NeuronX 通过增加对 SafeTensor 检查点格式的支持提高了权重加载性能,并为 Mixtral-8x7B-v0.1 和 mistralai/Mistral-7B-Instruct-v0.2 添加了新样本。NeuronX Distributed 和 PyTorch NeuronX 增加了对自动分桶的支持。

您可以使用 AWS Neuron SDK 在 Trn1 和 Inf2 实例上训练和部署模型,这些实例在 AWS 区域以按需型实例、预留实例和竞价型实例的形式提供,或者作为节省计划的一部分提供。

有关 Neuron 2.18 新功能和增强功能的完整列表,请访问 Neuron 发行说明。要开始使用 Neuron,请参阅:
AWS Neuron
Inf2 实例
Trn1 实例