AWS 并行计算服务 (PCS) 现支持通过 Slurm 实现节点重启

发布于: 2025年10月2日

AWS 并行计算服务 (PCS) 现在支持使用 Slurm 命令重启计算节点,且不会触发实例替换。此功能可在故障排除、资源清理及从降级状态恢复等运营场景中重启节点,避免直接替换整个节点,从而以更低成本高效维护集群的正常运行。

此功能现已在所有提供 PCS 的 AWS 区域推出。您可通过“scontrol reboot”命令搭配选项实现即时或延迟重启,而其他方式的重启仍将触发实例替换。要了解更多信息,请参阅 在 AWS PCS 中使用 Slurm 重启计算节点

PCS 是一项托管服务,可简化在 AWS 上使用 Slurm 运行和扩展高性能计算 (HPC) 工作负载的过程。要了解有关 PCS 的更多信息,请参阅服务文档