AWS Neuron führt spekulative Dekodierung und vLLM-Unterstützung ein

Veröffentlicht am: Apr 18, 2024

Heute kündigt AWS die Veröffentlichung von Neuron 2.18 an. Damit wird eine stabile Unterstützung (außerhalb der Betaversion) für PyTorch 2.1 eingeführt, kontinuierliches Batching mit vLLM-Unterstützung hinzugefügt und Unterstützung für spekulative Dekodierung mit dem Llama-2-70B-Sample in der Transformers-NeuronX-Bibliothek hinzugefügt.

AWS Neuron ist das SDK für Amazon EC2 Inferentia- und Trainium-basierte Instances, das speziell für generative KI entwickelt wurde. Neuron lässt sich in beliebte ML-Frameworks wie PyTorch und TensorFlow integrieren. Es umfasst einen Compiler, eine Laufzeit, Tools und Bibliotheken zur Unterstützung des Hochleistungstrainings und der Inferenz generativer KI-Modelle auf Trn1-Instances und Inf2-Instances.

Diese Version bietet auch neue Funktionen und Leistungsverbesserungen sowohl für LLM-Training als auch für Inferenz und aktualisiert Neuron DLAMIs und Neuron DLCs. Für das Training bietet NeuronX Distributed Unterstützung für asynchrone Checkpoints, automatische Partitionierungs-Pipeline-Parallelität und führt Pipeline-Parallelität in PyTorch Lightning Trainer (Beta) ein. Zur Inferenz verbessert Transformers NeuronX die Leistung bei der Gewichtung, indem es Unterstützung für das SafeTensor-Checkpoint-Format hinzufügt und neue Samples für Mixtral-8x7B-v0.1 und mistralai/Mistral-7B-Instruct-v0.2 hinzufügt. NeuronX Distributed und PyTorch NeuronX unterstützen jetzt das Auto-Bucketing.

Sie können das AWS Neuron SDK verwenden, um Modelle auf Trn1- und Inf2-Instances zu trainieren und bereitzustellen, die in AWS-Regionen als On-Demand-Instances, Reserved Instances, Spot Instances oder als Teil eines Savings Plan verfügbar sind.

Eine vollständige Liste der neuen Features und Verbesserungen in Neuron 2.18 finden Sie in den Versionshinweisen zu Neuron. Informationen zu den ersten Schritten mit Neuron finden Sie unter:
AWS Neuron
Inf2-Instances
Trn1-Instances

AWS Neuron führt spekulative Dekodierung und vLLM-Unterstützung ein

Ende des Supports für Internet Explorer