AWS Neuron bietet jetzt Unterstützung für Trainium2 und NxD Inference
AWS gibt am heutigen Tag das Release von Neuron 2.21 bekannt, mit Unterstützung für AWS Trainium2-Chips und Amazon EC2 Trn2-Instances , einschließlich des Instance-Typs trn2.48xlarge und Trn2 UltraServer. Dieses Release bietet ebenfalls Unterstützung für PyTorch 2.5 und führt NxD Inference und Neuron Profiler 2.0 (Beta) ein. NxD Inference, eine neue PyTorch-basierte Bibliothek, die in vLLM integriert ist, vereinfacht die Bereitstellung großer Sprach- und Multimodalitätsmodelle und ermöglicht das Onboarding von PyTorch-Modellen mit minimalen Codeänderungen und Neuron Profiler 2.0 (Beta), ein neuer Profiler, verbessert die Funktionen und Benutzerfreundlichkeit, einschließlich der Unterstützung für verteilte Workloads.
Neuron 2.21 fügt auch Unterstützung für die Modellinferenz Llama 3.1 405B, die NxD Inference auf einer einzelnen trn2.48xlarge-Instance verwendet. Dieses Release aktualisiert Deep Learning Containers (DLCs) und Deep Learning AMIs (DLAMIs) und bringt Unterstützung für verschiedene Modellarchitekturen, einschließlich der Modelle Llama 3.2 , Llama 3.3 und Mixture-of-Experts (MoE). Die neuen Inferenzfeatures beinhalten die FP8-Gewichtsquantisierung und die Flash-Dekodierung für die spekulative Dekodierung in Transformers NeuronX (TNx). Zusätzlich wurden neue Trainingsbeispiele und Features hinzugefügt, wie z. B. Unterstützung für HuggingFace Llama 3/3.1 70B auf Trn2-Instances und DPO-Unterstützung für den Modellabgleich nach dem Training.
AWS Neuron SDK unterstützt das Trainieren und Bereitstellen von Modellen auf Trn1, Trn2 und Inf2-Instances, die in AWS-Regionen als On-Demand-Instances, Reserved Instances, Spot Instances oder als Teil eines Savings Plan verfügbar sind.
Eine vollständige Liste der neuen Features und Erweiterungen in Neuron 2.21 sowie Hinweise für den Einstieg in Neuron finden Sie unter: