Amazon SageMaker HyperPod prend désormais en charge la surveillance de l’état approfondie à la demande
Amazon SageMaker HyperPod prend désormais en charge la surveillance de l’état approfondie à la demande pour les clusters orchestrés par Amazon EKS et Slurm, ce qui vous permet de vérifier de manière proactive l’état de l’accélérateur GPU sur les instances en cours d’exécution à tout moment. Les clusters orchestrés par HyperPod Slurm prennent désormais également en charge la surveillance de l’état approfondie lors du provisionnement des nœuds, au moment de la création du cluster. Cette fonctionnalité permet de relever un défi majeur : même un seul nœud défectueux peut faire perdre des heures de temps de calcul et retarder des charges de travail critiques.
Grâce à la surveillance de l’état approfondie à la demande, vous pouvez cibler des groupes d’instances entiers ou des instances spécifiques afin d’exécuter des tests de résistance matériels complets et des tests de connectivité avant d’affecter des ressources de calcul à une tâche. Les progrès et les résultats sont visibles à la fois au niveau du groupe d’instances et de l’instance via la console SageMaker et les API, offrant une visibilité complète sur l’état du GPU, la connectivité réseau et les performances de communication multi-nœuds. Les instances soumises à des contrôles sont automatiquement isolées de la planification de la charge de travail et remises en service une fois qu’elles sont réussies. Lorsqu’elles sont associées à la fonction de restauration automatique des nœuds d’HyperPod, les instances défaillantes sont automatiquement redémarrées ou remplacées, garantissant ainsi la santé du cluster.
Cette fonctionnalité est disponible dans toutes les régions dans lesquelles Amazon SageMaker HyperPod est disponible. Pour en savoir plus sur les surveillances de l’état à la demande, consultez la documentation.