Supporto Amazon EKS in Amazon SageMaker HyperPod per scalare lo sviluppo di modelli di fondazione

Inserito il: 10 set 2024

Siamo lieti di annunciare che è stato reso disponibile per tutti il supporto Amazon EKS in SageMaker HyperPod, che consente ai clienti di eseguire e gestire i propri carichi di lavoro Kubernetes su SageMaker HyperPod, un'infrastruttura appositamente costruita per lo sviluppo di modelli di fondazione (FM) che riduce i tempi di addestramento dei modelli fino al 40%.

Molti clienti utilizzano Kubernetes per concertare i flussi di lavoro ML grazie alla sua portabilità, scalabilità e al ricco ecosistema di strumenti. Questi clienti vogliono continuare a utilizzare la familiare interfaccia di Kubernetes, ma anche un modo automatizzato per gestire i malfunzionamenti dell'hardware. Il supporto EKS in HyperPod combina i vantaggi di SageMaker HyperPod, che offre cluster performanti con risoluzione automatica, con le funzionalità di containerizzazione di Amazon EKS, un servizio Kubernetes gestito. Con questo lancio i clienti possono eseguire controlli dell'integrità approfonditi durante la creazione del cluster per ridurre gli errori durante l'addestramento. Inoltre, HyperPod sostituisce automaticamente i nodi difettosi e riprende l'addestramento dall'ultimo checkpoint su AWS Trainium e GPU Nvidia su una scala di oltre mille acceleratori. I clienti hanno la flessibilità di utilizzare la nuova CLI HyperPod o i loro strumenti preferiti per inviare, gestire e monitorare i carichi di lavoro. L'ambiente cluster persistente offre l'accesso ssm e la possibilità di personalizzare il cluster. I cluster HyperPod concertati da EKS si integrano anche con gli approfondimenti sui container CloudWatch per fornire un'osservabilità immediata, rilevando automaticamente lo stato di salute dei nodi HyperPod e visualizzandoli in dashboard selezionate.

Questa versione è generalmente disponibile nelle regioni AWS in cui è disponibile SageMaker HyperPod ad eccezione della regione Europa (Londra).

Per ulteriori informazioni, consulta il seguente elenco di risorse: pagina web, notizie sul Blog AWS, la documentazione relativa, il repository Github.