AWS Parallel Computing Service (PCS) ahora admite el reinicio de nodos mediante Slurm
AWS Parallel Computing Service (PCS) ahora le permite reiniciar los nodos de procesamiento mediante los comandos de Slurm sin provocar el reemplazo de instancias. Con esta característica, puede reiniciar los nodos por motivos operativos, como la solución de problemas, la limpieza de recursos y la recuperación de estados degradados antes de requerir el reemplazo completo de los nodos, lo que le permite mantener el estado del clúster de manera eficiente a un costo menor.
Esta característica está disponible en todas las regiones de AWS en las que está disponible PCS. Puedes usar el comando “scontrol reboot” con opciones para programar reinicios inmediatos o diferidos, mientras que los reinicios con otros métodos seguirán activando el reemplazo de instancias. Para obtener más información, consulte Reinicio de nodos de procesamiento con Slurm en AWS PCS.
PCS es un servicio gestionado que simplifica la ejecución y el escalado de las cargas de trabajo de computación de alto rendimiento (HPC) en AWS mediante Slurm. Para obtener más información sobre PCS, consulte la documentación del servicio.