Zu den neuen Features für AWS Neuron 2.24 gehören PyTorch 2.7 und Inferenzverbesserungen

Veröffentlicht am: 2. Juli 2025


Heute kündigt AWS die allgemeine Verfügbarkeit von Neuron 2.24 an, das neue Features und Leistungsverbesserungen für Kunden bietet, die Deep-Learning-Modelle auf AWS Inferentia- und Trainium-basierten Instances erstellen und bereitstellen. Neuron 2.24 bietet Unterstützung für PyTorch 2.7, erweiterte Inferenzfunktionen und erweiterte Kompatibilität mit gängigen Machine-Learning-Frameworks. Diese Updates helfen Entwicklern und Datenwissenschaftlern, das Modelltraining und die Inferenz zu beschleunigen, die Effizienz zu verbessern und die Bereitstellung großer Sprachmodelle und anderer KI-Workloads zu vereinfachen.

Mit Neuron 2.24 können Kunden erweiterte Inferenz-Features wie Präfix-Caching für schnelleres Time-To-First-Token (TTFT), disaggregierte Inferenz zur Reduzierung von Prefill-Decode-Interferenz und Kontextparallelität für eine verbesserte Leistung bei langen Sequenzen nutzen. Die Version bietet auch Unterstützung für Qwen 2.5-Textmodelle und eine verbesserte Integration mit Hugging Face Optimum Neuron und dem Pytorch-basierten NxD Core-Backend.

Neuron 2.24 ist in allen AWS-Regionen verfügbar, in denen Inferentia- und Trainium-Instances angeboten werden.

Weitere Informationen und eine vollständige Liste der neuen Features und Verbesserungen finden Sie unter: