Le nuove funzionalità di AWS Neuron 2.24 includono PyTorch 2.7 e miglioramenti all'inferenza.
Oggi AWS rende disponibile al pubblico Neuron 2.24, introducendo nuove funzionalità e miglioramenti delle prestazioni per i clienti che creano e implementano modelli di deep learning su istanze basate su AWS Inferentia e Trainium. Neuron 2.24 introduce il supporto per PyTorch 2.7, funzionalità di inferenza potenziate e una compatibilità ampliata con i framework di machine learning più diffusi. Questi aggiornamenti aiutano sviluppatori e data scientist ad accelerare l'addestramento dei modelli e l'inferenza, migliorare l'efficienza e semplificare l'implementazione di modelli linguistici di grandi dimensioni e altri carichi di lavoro di IA.
Con Neuron 2.24 i clienti possono usufruire di funzionalità avanzate per l'inferenza, come il caching dei prefissi per accelerare il Time-To-First-Token (TTFT), l'inferenza disaggregata per ridurre le interferenze tra prefill e decode e la parallelizzazione del contesto per migliorare le prestazioni su sequenze lunghe. Questa versione introduce anche il supporto per i modelli di testo Qwen 2.5 e un'integrazione migliorata con Hugging Face Optimum Neuron e il backend NxD Core basato su PyTorch.
Neuron 2.24 è disponibile in tutte le regioni AWS in cui sono supportate le istanze Inferentia e Trainium.
Per ulteriori informazioni e per l'elenco completo delle nuove funzionalità e dei miglioramenti, consulta: