Publié le: Dec 22, 2023

AWS Neuron est le SDK pour les instances basées sur Amazon EC2 Inferentia et Trainium, spécialement conçu pour l'IA générative. Aujourd'hui, avec la sortie de Neuron 2.16, nous annonçons la prise en charge de l'inférence du modèle Llama-2 70b sur les instances Inf2. 

Neuron s'intègre aux frameworks ML populaires tels que PyTorch et TensorFlow, ce qui vous permet de démarrer avec un minimum de modifications de code et sans solutions spécifiques au fournisseur. Neuron inclut un compilateur, un environnement d'exécution, des outils et des bibliothèques pour prendre en charge l'entraînement à haute performance et l'inférence de modèles d'IA générative sur les instances Trn1 et Inf2. 

Neuron 2.16 ajoute la prise en charge de l'inférence pour les modèles Llama-2 70b et Mistral-7b avec Transformers NeuronX. Cette version inclut la prise en charge de PyTorch 2.1 (bêta) et d'Amazon Linux 2023. Neuron 2.16 améliore l'expérience utilisateur de la formation sur le modèle LLM grâce à la prise en charge de PyTorch Lightning Trainer (bêta). L'inférence PyTorch permet désormais d'échanger dynamiquement différents poids affinés pour les modèles chargés. Cette version introduit l'outil Neuron Distributed Event Tracing (NDET) pour améliorer le débogage et le profilage des opérateurs de communication collective dans l'outil Neuron Profiler.

Vous pouvez utiliser le SDK AWS Neuron pour entraîner et déployer des modèles sur des instances Trn1 et Inf2, disponibles dans les régions AWS suivantes sous forme d'instances à la demande, d'instances réservées, d'instances Spot ou dans le cadre d'un Savings Plan : USA Est (Virginie du Nord), USA Ouest (Oregon) et USA Est (Ohio). 

Pour une liste complète des nouvelles fonctionnalités et améliorations de Neuron 2.16, consultez les notes de version de Neuron. Pour commencer à utiliser Neuron, consultez :