Amazon SageMaker HyperPod Slurm 叢集現在支援指定使用連續佈建的最低容量需求
Amazon SageMaker HyperPod 現在支援使用 Slurm 協同運作和連續佈建之叢集的最低容量需求 (MinCount)。透過持續佈建功能,HyperPod 會以可用的部分容量佈建叢集,以便讓您快速啟動 AI/ML 工作,同時繼續在背景以非同步方式佈建剩餘執行個體。雖然這項作法能夠提供彈性,但部分訓練工作負載需要先保證具有最低的節點數量,才能有效地啟動。MinCount 功能可讓您指定執行個體群組轉換為 InService 狀態之前必須成功佈建的執行個體數目下限,使您得以更好地控制可將叢集用於工作排程的時機。
這對於使用 PyTorch FSDP、Megatron-LM 或 NVIDIA NeMo 等架構的分散式訓練工作負載特別有用,這類訓練任務通常設有固定數量的參與節點,並且可能無法使用部分叢集容量有效或正確的啟動。此外,在投入訓練執行之前需要確保基準 GPU 計數達到 SLA 或成本效益目標的團隊,也能夠受益於這項功能。
您能夠在 CreateCluster 或 UpdateCluster API 請求中指定 MinInstanceCount,以設定執行個體群組的最小容量閾值。執行個體群組會在達到閾值之前保持於 Creating 或 Updating 狀態,然後在達到閾值後轉移至 InService 狀態,而此時就能將節點用於 Slurm 工作排程。HyperPod 會繼續啟動超過 MinCount 的額外執行個體,直到達到目標計數為止。如果無法在 3 小時內滿足 MinCount,系統會自動將執行個體群組恢復到其上一個已知良好狀態。
搭配連續佈建之 Slurm 叢集的 MinCount 功能適用於支援 Amazon SageMaker HyperPod 的所有 AWS 區域。若要著手指定叢集的最低容量需求,請參閱 Amazon SageMaker AI 文件中的最低容量需求 (MinCount)。