Serviço de Computação Paralela da AWS (AWS PCS) agora oferece suporte à reinicialização de nós via Slurm

Publicado: 2 de out de 2025

O Serviço de Computação Paralela da AWS (AWS PCS) agora permite reinicializar os nós de computação usando comandos Slurm sem acionar a substituição de instâncias. Com esse atributo, você pode reinicializar os nós por motivos operacionais, como solução de problemas, limpeza de recursos e recuperação de estados degradados, antes de exigir a substituição completa dos nós, permitindo manter a integridade do cluster com eficiência a custos mais baixos.

Esse atributo está disponível em todas as regiões da AWS que oferecem o PCS. Você pode usar o comando “scontrol reboot” com opções para programar reinicializações imediatas ou adiadas, enquanto as reinicializações por meio de outros métodos continuarão acionando a substituição da instância. Para saber mais, consulte Rebooting compute nodes with Slurm in AWS PCS.

O PCS é um serviço gerenciado que simplifica a execução e a escalabilidade de workloads de computação de alta performance (HPC) na AWS usando o Slurm. Para saber mais sobre o PCS, consulte a documentação do serviço.