AWS Neuron présente le noyau Flash Attention qui permet de hautes performances et de grandes longueurs de séquence

Publié le: 11 juil. 2024

AWS annonce aujourd'hui le lancement de la version de Neuron 2.19, qui introduit la prise en charge du noyau Flash Attention afin de permettre une formation et une inférence performants de modèles LLM avec de grandes longueurs de séquences.

AWS Neuron est le kit SDK pour les instances basées sur AWS Inferentia et Trainium, spécialement conçu pour l'IA générative. Neuron s'intègre aux cadres de machine learning populaires tels que PyTorch. Il inclut un compilateur, un environnement d'exécution, des outils et des bibliothèques pour prendre en charge la formation et l'inférence haute performance de modèles d'IA sur les instances Trn1 et Inf2.

Cette version propose de nouvelles fonctionnalités et des améliorations de performances pour la formation et l'inférence, ainsi que le nouveau Ubuntu 22 Neuron DLAMIs pour PyTorch 2.1 et PyTorch 1.13. Neuron 2.19 ajoute la prise en charge du noyau Flash Attention pour permettre l’entraînement de grandes longueurs de séquences (supérieures ou égales à 8K), la formation du modèle Llama3 et le parallélisme de pipelines entrelacés afin d'améliorer l'efficacité de l'entraînement et l'utilisation des ressources. À des fins d'inférence, cette version ajoute la prise en charge du noyau Flash Attention pour permettre l'inférence LLM pour des longueurs de contexte allant jusqu'à 32K. Neuron 2.19 ajoute également la prise en charge de l'inférence du modèle Llama3 ainsi que la prise en charge bêta pour le traitement par lots continu avec les modèles Mistral-7b-v0.2. Neuron 2.19 introduit de nouveaux outils : le plugin Neuron Node Problem Detector and Recovery dans EKS et Neuron Monitor pour EKS afin de permettre une surveillance améliorée des métriques Neuron dans Kubernetes.

Vous pouvez utiliser le kit SDK AWS Neuron pour entraîner et déployer des modèles sur des instances Trn1 et Inf2, disponibles dans les régions AWS sous forme d'instances à la demande, d'instances réservées ou d'instances Spot, ou dans le cadre d'un plan d'économies.

Pour consulter la liste des fonctionnalités de Neuron 2.19, consultez les notes de mise à jour de Neuron. Pour commencer à utiliser Neuron, consultez :
AWS Neuron
Instances Inf2
Instances Trn1

AWS Neuron présente le noyau Flash Attention qui permet de hautes performances et de grandes longueurs de séquence

Apprendre

Ressources

Développeurs

Aide