AWS Neuron introduit la prise en charge de Trainium2 et NxD Inference
AWS annonce aujourd'hui la sortie de Neuron 2.21, qui introduit la prise en charge des puces AWS Trainium2 et des instances Amazon EC2 Trn2, y compris le type d'instance trn2.48xlarge et Trn2 UltraServer. Cette version ajoute également la prise en charge de PyTorch 2.5 et introduit NxD Inference et Neuron Profiler 2.0 (bêta). NxD Inference est une nouvelle bibliothèque basée sur PyTorch, intégrée à vLLM, qui simplifie le déploiement de grands modèles linguistiques et multimodaux et permet l'intégration des modèles PyTorch avec un minimum de modifications de code. Neuron Profiler 2.0 (bêta) est un nouveau profileur, qui améliore les fonctionnalités et la convivialité, y compris la prise en charge des charges de travail distribuées.
Neuron 2.21 introduit également la prise en charge de l'inférence du modèle Llama 3.1 405B à l'aide de l'inférence NxD sur une seule instance trn2.48xlarge. Cette version met à jour les Deep Learning Containers (DLC) et les Deep Learning AMI (DLAMI), et ajoute la prise en charge de diverses architectures de modèles, notamment les modèles Llama 3.2, Llama 3.3 et les modèles de mélange d’experts (MoE). Les nouvelles fonctionnalités d'inférence incluent la quantification du poids FP8 et le décodage flash pour le décodage spéculatif dans Transformers NeuronX (TNx). De plus, de nouveaux exemples et fonctionnalités d’entraînement ont été ajoutés, tels que la prise en charge de HuggingFace Llama 3/3.1 70B sur les instances Trn2 et la prise en charge du DPO pour l'alignement des modèles après la formation.
Le kit SDK AWS Neuron prend en charge l’entraînement et le déploiement de modèles sur les instances Trn1, Trn2 et Inf2, disponibles dans les régions AWS sous forme d'instances à la demande, d'instances réservées, d'instances Spot ou dans le cadre d'un Savings Plan.
Pour une liste complète des nouvelles fonctionnalités et améliorations de Neuron 2.21 et pour commencer à utiliser Neuron, voir :