SageMaker HyperPod prend désormais en charge la planification en groupe pour les charges de travail de formation distribuées
La gouvernance des tâches d’Amazon SageMaker HyperPod prend désormais en charge la planification des groupes, ce qui garantit que tous les modules nécessaires à une tâche d’entraînement distribuée sont prêts avant le début de la formation. Les administrateurs peuvent configurer la planification des groupes pour éviter le gaspillage de calcul dû à l’exécution partielle des tâches et éviter les blocages liés aux tâches en attente de ressources.
Les scientifiques des données qui exécutent des tâches d’entraînement distribuées en matière d’IA/ML sur des clusters Amazon SageMaker HyperPod à l’aide de l’orchestrateur EKS ont besoin de plusieurs pods pour fonctionner ensemble sur des nœuds grâce à une communication de pod à pod. Lorsque certains modules démarrent mais pas d’autres, les tâches peuvent conserver des ressources sans progresser, bloquer d’autres charges de travail et augmenter les coûts. La planification des groupes permet de résoudre ce problème en surveillant tous les modules d’une charge de travail et en réduisant la charge de travail si tous les modules ne sont pas prêts dans les délais impartis. Les charges de travail retirées sont automatiquement mises en file d’attente pour éviter tout blocage. Les administrateurs peuvent ajuster les paramètres de la console HyperPod, tels que le temps d’attente avant que les pods soient prêts, la manière de gérer les défaillances des nœuds, l’opportunité d’admettre les charges de travail une par une pour éviter les blocages sur les clusters occupés et la manière dont les nouvelles tentatives sont planifiées.
Cette fonctionnalité est actuellement disponible pour les clusters Amazon SageMaker HyperPod utilisant l’orchestrateur EKS dans les régions AWS USA Est (Ohio), USA Est (Virginie du Nord), USA Ouest (Californie du Nord), USA Ouest (Oregon), Amérique du Sud (São Paulo), Asie-Pacifique (Jakarta), Asie-Pacifique (Mumbai), Asie-Pacifique (Singapour), Asie-Pacifique (Sydney), Asie-Pacifique (Tokyo), Europe (Espagne), Europe (Francfort), Europe (Irlande), Europe (Londres) et Europe (Stockholm).
Pour en savoir plus, consultez la page Web de SageMaker HyperPod et la documentation relative à la gouvernance des tâches HyperPod.