AWS Parallel Computing Service (PCS) 現在支援透過 Slurm 重新啟動節點

張貼日期: 2025年10月2日

AWS Parallel Computing Service (PCS) 現在可讓您在不觸發執行個體替換的情況下,使用 Slurm 命令重新啟動運算節點。有了此功能,您可以出於作業原因重新啟動節點,例如疑難排解、資源清理,以及在尚未需要進行完整節點替換之前,從降級狀態復原,使您能夠以更低的成本有效地維持叢集健康狀態。

所有提供 PCS 的 AWS 區域皆可使用此功能。您可以使用具有選項的 "scontrol reboot" 命令來排程立即或延遲重新開機,而透過其他方法進行重新啟動,將繼續觸發執行個體替換。若要進一步了解,請參閱在 AWS PCS 中使用 Slurm 重新啟動運算節點

PCS 是一種受管服務,可使用 Slurm 在 AWS 上簡化高效能運算 (HPC) 工作負載的執行和擴展作業。若要進一步了解 PCS,請參閱服務文件