Amazon SageMaker HyperPod 現在支援用於 Slurm 協調叢集的持續佈建功能

張貼日期: 2026年3月25日

Amazon SageMaker HyperPod 現在使用 Slurm 協調器將持續佈建支援延伸至叢集,為執行大規模 AI/ML 訓練工作負載的企業客戶提供更佳的彈性和效率。執行 Slurm 型叢集的 AI/ML 客戶需要在不中斷作業的情況下快速進行訓練、順暢地擴展、執行維護,並詳細掌握叢集作業情況。先前,如果無法完整佈建任何執行個體群組,則整個叢集的建立或擴展作業會失敗並恢復,進而導致延遲並需要手動干預。

有了 Slurm 的持續佈建功能,SageMaker HyperPod 會自動在背景佈建剩餘容量,同時在可用執行個體上立即展開訓練任務。系統會使用以優先順序為基礎的佈建,先行啟動 Slurm 控制器節點,然後再平行啟動登入節點和工作節點,讓叢集盡快達到作業狀態。系統會以非同步方式啟動 HyperPod 重試失敗的節點,並在節點可用時自動將節點新增至 Slurm 叢集,確保叢集可靠地達到所需的規模,而不需要手動干預。現在,您能夠同時在多個執行個體群組中執行並行、非阻攔式的擴展作業,因此一個執行個體群組中的容量短缺情形,不會再阻止其他執行個體群組的擴展作業。這些功能可協助客戶縮短訓練時間、最大限度地提高資源使用率,並專注於創新而非基礎架構管理。

此功能適用於使用 Slurm 協調器的新 SageMaker HyperPod 叢集。透過 CreateCluster API 建立新 HyperPod 叢集後,您可以透過將 NodeProvisioningMode 參數設定為「連續」來啟用連續佈建。客戶也可以在透過 AWS CLI 和 SageMaker AI 主控台建立新叢集時啟用持續佈建功能。

此功能適用於支援 Amazon SageMaker HyperPod 的所有 AWS 區域。若要進一步了解 Slurm 叢集的持續佈建功能,請參閱 Amazon SageMaker HyperPod 使用者指南