AWS Neuron 2.24 的新功能包括 PyTorch 2.7 和推理增强功能

发布于: 2025年7月2日


今天,AWS 宣布正式推出 Neuron 2.24,为客户在基于 AWS Inferentia 和 Trainium 的实例上构建和部署深度学习模型提供了新功能和性能改进。Neuron 2.24 引入了对 PyTorch 2.7 的支持,增强了推理功能,并扩展了与热门机器学习框架的兼容性。这些更新可帮助开发人员和数据科学家加快模型训练和推理,提高效率并简化大型语言模型和其他 AI 工作负载的部署。

借助 Neuron 2.24,客户可以利用高级推理功能,例如前缀缓存以缩短首令牌时延 (TTFT),分解推理以减少预填充-解码干扰,并使用上下文并行来提高长序列的性能。该版本还支持 Qwen 2.5 文本模型,并改进了与 Hugging Face Optimum Neuron 和基于 PyTorch 的 NxD Core 后端的集成。

Neuron 2.24 现已在所有提供 Inferentia 和 Trainium 实例的 AWS 区域推出。

要了解更多信息以及新功能和增强功能的完整列表,请参阅: