Les nouvelles fonctionnalités d'AWS Neuron 2.24 incluent PyTorch 2.7 et des améliorations en matière d'inférence
AWS annonce aujourd'hui la disponibilité générale de Neuron 2.24, qui propose de nouvelles fonctionnalités et des améliorations de performances aux clients qui créent et déploient des modèles de deep learning sur des instances basées sur AWS Inferentia et Trainium. Neuron 2.24 introduit la prise en charge de PyTorch 2.7, des capacités d'inférence améliorées et une compatibilité étendue avec les cadres d'apprentissage automatique les plus courants. Ces mises à jour aident les développeurs et les scientifiques des données à accélérer l’entraînement et l'inférence des modèles, améliorer l'efficacité et simplifier le déploiement de grands modèles de langage et d'autres charges de travail d'IA.
Avec Neuron 2.24, les clients peuvent tirer parti de fonctionnalités d'inférence avancées telles que la mise en cache des préfixes pour accélérer le délai entre le premier jeton (TTFT), l'inférence désagrégée pour réduire les interférences entre le préremplissage et le décodage, et le parallélisme du contexte pour améliorer les performances sur les séquences longues. Cette version prend également en charge les modèles de texte Qwen 2.5 et améliore l'intégration avec Hugging Face Optimum Neuron et le backend NxD Core basé sur PyTorch.
Neuron 2.24 est disponible dans toutes les régions AWS où les instances Inferentia et Trainium sont proposées.
Pour en savoir plus et obtenir la liste complète des nouvelles fonctionnalités et améliorations, consultez :