Zu den neuen Features für AWS Neuron 2.24 gehören PyTorch 2.7 und Inferenzverbesserungen
Heute kündigt AWS die allgemeine Verfügbarkeit von Neuron 2.24 an, das neue Features und Leistungsverbesserungen für Kunden bietet, die Deep-Learning-Modelle auf AWS Inferentia- und Trainium-basierten Instances erstellen und bereitstellen. Neuron 2.24 bietet Unterstützung für PyTorch 2.7, erweiterte Inferenzfunktionen und erweiterte Kompatibilität mit gängigen Machine-Learning-Frameworks. Diese Updates helfen Entwicklern und Datenwissenschaftlern, das Modelltraining und die Inferenz zu beschleunigen, die Effizienz zu verbessern und die Bereitstellung großer Sprachmodelle und anderer KI-Workloads zu vereinfachen.
Mit Neuron 2.24 können Kunden erweiterte Inferenz-Features wie Präfix-Caching für schnelleres Time-To-First-Token (TTFT), disaggregierte Inferenz zur Reduzierung von Prefill-Decode-Interferenz und Kontextparallelität für eine verbesserte Leistung bei langen Sequenzen nutzen. Die Version bietet auch Unterstützung für Qwen 2.5-Textmodelle und eine verbesserte Integration mit Hugging Face Optimum Neuron und dem Pytorch-basierten NxD Core-Backend.
Neuron 2.24 ist in allen AWS-Regionen verfügbar, in denen Inferentia- und Trainium-Instances angeboten werden.
Weitere Informationen und eine vollständige Liste der neuen Features und Verbesserungen finden Sie unter: