AWS Neuron 推出了對 Trainium2 和 NxD Inference 的支援

張貼日期: 2024年12月23日

今天,AWS 宣布推出 Neuron 2.21,引入 AWS Trainium2 晶片和 Amazon EC2 Trn2 執行個體的支援,包括 trn2.48xlarge 執行個體類型和 Trn2 UltraServer。此版本還增加了對 PyTorch 2.5 的支援,並引入了 NxD Inference 和 Neuron Profiler 2.0 (Beta 版)。NxD Inference 是一個與 vLLM 整合的全新 PyTorch 型程式庫,簡化了大規模語言和多形式模型的部署,並讓 PyTorch 模型佈設變得更簡單而幾乎不需要修改程式碼,而 Neuron Profiler 2.0 (Beta 版) 是新的分析工具,可增強功能和可用性,包括對分散式工作負載的支援。

Neuron 2.21 還引入了在單一 trn2.48xlarge 執行個體上使用 NxD Inference 的 Llama 3.1 405B 模型推論支援。該版本更新深度學習容器 (DLC) 和深度學習 AMI (DLAMI),並增加了對各種模型架構的支援,包括 Llama 3.2、Llama 3.3 和混合專家 (MoE) 模型。新的推論功能包括 FP8 重量量化和快閃解碼,用於 Transformers NeuronX (TNx) 中的推測解碼。此外,新增了新的訓練範例和功能,例如在 Trn2 執行個體上對 HuggingFace Llama 3/3.1 70B 的支援,以及對訓練後模型調整的 DPO 支援。

AWS Neuron SDK 在 Trn1、Trn2 和 Inf2 執行個體上支援訓練和部署模型,這些執行個體在 AWS 區域中以隨需執行個體、預留執行個體、Spot 執行個體或 Savings Plan 的一部分提供。

如需 Neuron 2.21 中的新功能和增強功能的完整清單,以及如何開始使用 Neuron,請參閱: