Amazon SageMaker HyperPod ora supporta il gang scheduling per i carichi di lavoro di addestramento distribuito
La governance delle attività di Amazon SageMaker HyperPod ora supporta il gang scheduling, che assicura che tutti i pod richiesti per un job di addestramento distribuito siano pronti prima dell'inizio dell'addestramento. Gli amministratori possono configurare il gang scheduling per evitare sprechi di risorse di calcolo dovuti a esecuzioni parziali dei job ed evitare deadlock causati da job in attesa di risorse.
I data scientist che eseguono job di addestramento AI/ML distribuiti su cluster Amazon SageMaker HyperPod utilizzando l'orchestratore EKS richiedono che più pod lavorino insieme su diversi nodi con comunicazione pod-to-pod. Quando alcuni pod si avviano ma altri no, i job possono occupare risorse senza progredire, bloccare altri carichi di lavoro e aumentare i costi. Il gang scheduling risolve questo problema monitorando tutti i pod in un carico di lavoro e ritirando il carico di lavoro se non tutti i pod sono pronti entro un tempo prestabilito. I carichi di lavoro ritirati vengono automaticamente reinseriti in coda per evitare interruzioni. Gli amministratori possono regolare le impostazioni sulla Console HyperPod, come il tempo di attesa per la preparazione dei pod, la gestione dei guasti ai nodi, l'ammissione dei carichi di lavoro uno alla volta per evitare deadlock su cluster occupati e la pianificazione dei tentativi.
Questa funzionalità è attualmente disponibile per i cluster Amazon SageMaker HyperPod che utilizzano l'orchestratore EKS nelle seguenti regioni AWS: Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (California settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Mumbai), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Asia Pacifico (Giacarta), Europa (Francoforte), Europa (Irlanda), Europa (Londra), Europa (Stoccolma), Europa (Spagna) e Sud America (San Paolo).
Per ulteriori infrmazioni, consulta la pagina web di SageMaker HyperPod e la documentazione sulla governance delle attività di HyperPod.