Funzionalità di Amazon SageMaker HyperPod

Scala e velocizza lo sviluppo di modelli di IA generativa su migliaia di acceleratori di IA

Governance delle attività

Amazon SageMaker HyperPod offre visibilità e controllo completi sull'assegnazione delle risorse di calcolo nelle attività di sviluppo dei modelli di IA generativa, come formazione e inferenza. SageMaker HyperPod gestisce automaticamente le code di attività, garantendo che alle attività più critiche venga assegnata la priorità, utilizzando al contempo le risorse di calcolo in modo più efficiente per ridurre i costi di sviluppo dei modelli. In pochi semplici passaggi, gli amministratori possono definire le priorità per le diverse attività e impostare limiti per il numero di risorse di calcolo che ogni team o progetto può utilizzare. Quindi, i data scientist e gli sviluppatori creano attività (ad esempio, un'esecuzione di training, la messa a punto di un particolare modello o l'esecuzione di previsioni su un modello addestrato) che SageMaker HyperPod esegue automaticamente, rispettando i limiti e le priorità delle risorse di calcolo impostate dall'amministratore. Quando un'attività ad alta priorità deve essere completata immediatamente ma tutte le risorse di calcolo sono in uso, SageMaker HyperPod libera automaticamente le risorse di calcolo dalle attività con priorità inferiore. Inoltre, SageMaker HyperPod utilizza automaticamente le risorse di calcolo inattive per accelerare le attività in attesa. SageMaker HyperPod fornisce un pannello di controllo in cui gli amministratori possono monitorare e verificare le attività in esecuzione o in attesa di risorse di calcolo.

Ulteriori informazioni

Piani di addestramento flessibili

Per rispettare le tempistiche e i budget di addestramento, SageMaker HyperPod ti aiuta a creare i piani di addestramento più convenienti che utilizzano risorse di calcolo provenienti da più blocchi di capacità di calcolo. Una volta approvati i piani di addestramento, SageMaker HyperPod esegue automaticamente il provisioning dell'infrastruttura ed esegue i carichi di lavoro di addestramento su queste risorse di calcolo senza richiedere alcun intervento manuale. Risparmia settimane di impegno nella gestione del processo di addestramento per allineare i lavori con disponibilità di calcolo.

Ulteriori informazioni

 

Ricette ottimizzate

Le ricette SageMaker HyperPod consentono ai data scientist e agli sviluppatori di tutte le competenze di beneficiare di prestazioni all'avanguardia mentre iniziano rapidamente ad addestrare e perfezionare i modelli di IA generativa disponibili al pubblico, tra cui Llama 3.1 405B, Mixtral 8x22B e Mistral 7B. Ogni ricetta include uno stack di addestramento che è stato testato da AWS e consente di eliminare settimane di noioso lavoro testando diverse configurazioni di modelli. Puoi passare da istanze basate su GPU a istanze basate su AWS Trainium con una modifica di ricetta di una riga e abilitare il checkpoint automatico dei modelli per una migliore resilienza di addestramento, oltre ad eseguire carichi di lavoro in produzione su SageMaker HyperPod.

 

Librerie di addestramento distribuite ad alte prestazioni

SageMaker HyperPod accelera l'esecuzione dell'addestramento distribuito suddividendo automaticamente i modelli e i set di dati di addestramento tra gli acceleratori AWS. Aiuta a ottimizzare il tuo lavoro di addestramento per l'infrastruttura di rete AWS e la topologia dei cluster e a semplificare i checkpoint del modello ottimizzando la frequenza di salvataggio dei checkpoint, garantendo un sovraccarico minimo durante la formazione.

Strumenti avanzati di sperimentazione e osservabilità

È possibile utilizzare strumenti AI integrati in SageMaker HyperPod per migliorare le prestazioni del modello. Ad esempio, TensorBoard gestito in SageMaker ti aiuta a risparmiare tempo di sviluppo tramite la visualizzazione dell'architettura del modello per identificare e risolvere i problemi di convergenza. L'integrazione con gli approfondimenti sui container Amazon CloudWatch offre informazioni più approfondite sulle prestazioni, sull'integrità e sull'utilizzo del cluster. Managed MLFlow in SageMaker aiuta a gestire in modo efficiente gli esperimenti su vasta scala.

Pianificazione e orchestrazione del carico di lavoro

L'interfaccia utente di SageMaker HyperPod è altamente personalizzabile tramite Slurm o Amazon Elastic Kubernetes Service (Amazon EKS). È possibile selezionare e installare tutti i framework o gli strumenti necessari. Tutti i cluster vengono assegnati con il tipo e il numero di istanze scelti e vengono mantenuti per essere utilizzati in tutti i carichi di lavoro. Con il supporto di Amazon EKS in SageMaker HyperPod, puoi gestire e gestire i cluster con un'esperienza amministratore coerente basata su Kubernetes. Esegui e scala in modo efficiente i carichi di lavoro, dall'addestramento all'ottimizzazione fino all'inferenza. Puoi anche condividere la capacità di calcolo e passare da Slurm ad Amazon EKS per diversi tipi di carichi di lavoro.

Controllo dell'integrità e riparazione automatici del cluster

Se qualche istanza diventa difettosa durante il carico di lavoro di sviluppo di un modello, SageMaker HyperPod rileva e risolve automaticamente i problemi di infrastruttura. Per rilevare hardware difettoso, SageMaker HyperPod esegue regolarmente una serie di controlli dell'integrità dell'acceleratore e della rete.