AWS Parallel Computing Service (PCS) prend désormais en charge le redémarrage des nœuds via Slurm

Publié le: 2 oct. 2025

AWS Parallel Computing Service (PCS) vous permet désormais de redémarrer les nœuds de calcul à l'aide des commandes Slurm sans déclencher le remplacement de l'instance. Grâce à cette caractéristique, vous pouvez redémarrer les nœuds pour des raisons opérationnelles telles que le dépannage, le nettoyage des ressources et la restauration après un état dégradé avant de nécessiter le remplacement complet des nœuds, ce qui vous permet de maintenir efficacement l'état de santé du cluster à moindre coût.

Cette caractéristique est disponible dans toutes les régions AWS où PCS est disponible. Vous pouvez utiliser la commande « scontrol reboot » avec des options permettant de planifier des redémarrages immédiats ou différés, tandis que les redémarrages effectués par d'autres méthodes continueront à déclencher le remplacement de l'instance. Pour en savoir plus, consultez Redémarrer des nœuds de calcul avec Slurm dans AWS PCS.

PCS est un service géré qui simplifie l'exécution et la mise à l'échelle des charges de travail de calcul haute performance (HPC) sur AWS à l'aide de Slurm. Pour en savoir plus sur PCS, consultez la documentation du service.