Amazon SageMaker HyperPod

Riduci il tempo di addestramento dei modelli di base fino al 40% e scala in modo efficiente su più di mille acceleratori di IA

Che cos'è SageMaker HyperPod?

Amazon SageMaker HyperPod rimuove i carichi indifferenziati necessari per lo sviluppo e l'ottimizzazione dell'infrastruttura di machine learning (ML). È preconfigurato con le librerie di addestramento distribuite di SageMaker che dividono automaticamente i carichi di lavoro tra più di mille acceleratori IA, in modo che possano essere elaborati in parallelo per migliorare le prestazioni del modello. SageMaker HyperPod garantisce un addestramento di FM senza interruzioni tramite checkpoint di salvataggio periodico. Rileva automaticamente il guasto hardware quando si verifica, ripara o sostituisce l'istanza difettosa e riprende l'addestramento dall'ultimo checkpoint di salvataggio, rimuovendo la necessità di gestire manualmente il processo. L'ambiente resiliente consente di addestrare modelli per settimane o mesi in un ambiente distribuito senza interruzioni, riducendo il tempo di addestramento fino al 40%. Inoltre, SageMaker HyperPod è altamente personalizzabile e consente di eseguire e scalare in modo efficace i carichi di lavoro FM e di condividere con facilità la capacità di calcolo tra carichi di lavoro diversi, dall'addestramento su larga scala all'inferenza.

Vantaggi di SageMaker HyperPod

Amazon SageMaker HyperPod è preconfigurato con le librerie di addestramento distribuite di Amazon SageMaker, che consentono di suddividere automaticamente i modelli e i set di dati di addestramento tra le istanze del cluster AWS per permettere di dimensionare in modo efficiente i carichi di lavoro di addestramento.
SageMaker HyperPod supporta i più diffusi sistemi di gestione dei cluster e pianificazione dei processi, come Slurm e Amazon Elastic Kubernetes Service (EKS). Offre un'esperienza di sviluppo superiore, la capacità di gestire applicazioni containerizzate, il dimensionamento dinamico dei cluster e l'integrazione nativa del cloud man mano che scali i carichi di lavoro di addestramento e inferenza degli FM. Inoltre, consente di condividere in modo ottimale le risorse tra addestramento e inferenza per ottimizzare ulteriormente l'utilizzo delle risorse.
SageMaker HyperPod consente un ambiente di addestramento più resiliente rilevando, diagnosticando e ripristinando automaticamente i guasti, consentendo di addestrare continuamente gli FM per mesi senza interruzioni.