AWS Neuron introduit le décodage spéculatif et la prise en charge de vLLM

Publié le: Apr 18, 2024

AWS annonce aujourd'hui la sortie de Neuron 2.18, qui introduit une prise en charge stable (hors version bêta) pour PyTorch 2.1, ajoute le traitement par lots continu avec support vLLM et ajoute la prise en charge du décodage spéculatif avec l'échantillon Llama-2-70B dans la bibliothèque Transformers NeuronX.

AWS Neuron est le kit SDK pour les instances basées sur Amazon EC2 Inferentia et Trainium, spécialement conçu pour l'IA générative. Neuron s'intègre aux frameworks ML populaires tels que PyTorch et TensorFlow. Il inclut un compilateur, un environnement d'exécution, des outils et des bibliothèques pour prendre en charge l'entraînement à haute performance et l'inférence de modèles d'IA générative sur les instances Trn1 et Inf2.

Cette nouveauté ajoute également de nouvelles fonctionnalités et des améliorations de performances pour l'entraînement et l'inférence LLM, et met à jour les DLC Neuron DLAMis et Neuron. Pour la formation, NeuronX Distributed ajoute la prise en charge des points de contrôle asynchrones, le partitionnement automatique du parallélisme des pipelines et introduit le parallélisme des pipelines dans PyTorch Lightning Trainer (bêta). À des fins d'inférence, Transformers NeuronX améliore les performances de charge de poids en ajoutant la prise en charge du format de point de contrôle SafeTensor et en ajoutant de nouveaux échantillons pour Mixtral-8x7B-v0.1 et Mistralai/Mistral-7B-Instruct-v0.2. NeuronX Distributed et PyTorch NeuronX ajoutent la prise en charge du bucket automatique.

Vous pouvez utiliser le kit SDK AWS Neuron pour entraîner et déployer des modèles sur des instances Trn1 et Inf2, disponibles dans les régions AWS sous forme d'instances à la demande, d'instances réservées ou d'instances Spot, ou dans le cadre d'un plan d'économies.

Pour avoir une liste complète des nouvelles fonctionnalités et améliorations de Neuron 2.18, consultez les notes de version de Neuron. Pour commencer à utiliser Neuron, consultez :
AWS Neuron
Instances Inf2
Instances Trn1

AWS Neuron introduit le décodage spéculatif et la prise en charge de vLLM

Fin de la prise en charge d'Internet Explorer