AWS Neuron introduce il kernel Flash Attention che consente prestazioni elevate e ampie lunghezze di sequenza

Inserito il: 11 lug 2024

Oggi AWS presenta Neuron 2.19, che introduce il supporto per il kernel Flash Attention per consentire l'addestramento ad alte prestazioni e l'inferenza di modelli LLM con sequenze di grande lunghezza.

AWS Neuron è l'SDK per le istanze basate su AWS Inferentia e Trainium, creato appositamente per l'IA generativa. Neuron si integra con i framework ML più diffusi come PyTorch. Include un compilatore, un runtime, strumenti e librerie per supportare l'addestramento ad alte prestazioni e l'inferenza di modelli IA su istanze Trn1 e Inf2.

Questa versione aggiunge nuove funzionalità e miglioramenti delle prestazioni sia per l'addestramento che per l'inferenza e i nuovi DLAMI Neuron di Ubuntu 22 per PyTorch 2.1 e PyTorch 1.13. Neuron 2.19 aggiunge il supporto per il kernel Flash Attention per consentire l'addestramento per sequenze di grandi dimensioni (superiori o uguali a 8K), l'addestramento del modello Llama3 e il parallelismo di pipeline intercalate per migliorare l'efficienza dell'addestramento e dell'utilizzo delle risorse. Per l'inferenza, questa versione aggiunge il supporto del kernel Flash Attention per abilitare l'inferenza LLM per lunghezze di contesto fino a 32.000. Inoltre, Neuron 2.19 aggiunge il supporto per l'inferenza del modello Llama3 e il supporto beta per il batching continuo con i modelli Mistral-7B-v0.2. Neuron 2.19 introduce nuovi strumenti: il plug-in Neuron Node Problem Detector e Recovery in EKS e il Neuron Monitor per EKS per consentire il monitoraggio avanzato dei parametri di Neuron in Kubernetes.

Puoi utilizzare AWS Neuron SDK per addestrare e implementare modelli su istanze Trn1 e Inf2, disponibili nelle regioni AWS come istanze on demand, istanze riservate, istanze spot o parte del Savings Plan.

Per un elenco delle funzionalità di Neuron 2.19, consulta le Note di rilascio di Neuron. Per iniziare con Neuron, vedi:
AWS Neuron
Istanze Inf2
Istanze Trn1

AWS Neuron introduce il kernel Flash Attention che consente prestazioni elevate e ampie lunghezze di sequenza

Scopri

Risorse

Sviluppatori

Assistenza