Amazon SageMaker HyperPod 宣布支援適用於 Slurm 叢集的運作狀態監控代理程式

張貼日期: 2025年9月15日

今天,Amazon SageMaker HyperPod 宣布正式推出針對 Slurm 叢集的健康狀態監控代理程式。SageMaker HyperPod 可協助您佈建彈性叢集,以便執行機器學習 (ML) 工作負載並開發最先進的模型,例如大型語言模型 (LLM)、擴散模型和基礎模型 (FM)。運作狀態監控代理程式會針對執行個體執行被動的後台運作狀態檢查,用以在不影響應用程式行為或效能的情況下識別關鍵區域中的問題、立即標記失敗,並替換任何運作狀態不良的執行個體,確保順利執行訓練任務。 

代理程式會在 HyperPod 叢集中的所有 GPU 或以 Trainium 為基礎的節點上持續執行,並監視無回應 GPU 或 NVLink 錯誤計數器此類硬體問題。當偵測到錯誤時,其會將節點標示為運作狀態不良,並自動重新啟動或以運作狀態良好的節點加以取代,不需手動介入就能持續執行任務。此外,代理程式也採用協調方法搭配 Slurm 叢集提供的任務自動恢復功能來處理故障。例如,當代理程式取代節點後,啟用自動恢復的任務將從上次儲存的檢查點繼續。這項自動恢復功能本已在與 Amazon EKS 協調的 HyperPod 叢集上提供,現在更為 Slurm 叢集提供相同的彈性環境,可協助團隊不中斷地訓練大型模型達數週,並取回原本會因中期故障而損失的時間和成本。此外,如果碰到需要重設 GPU 驅動程式來解決問題等此類間歇性問題,客戶現在也可以使用簡單的命令來重新啟動節點。 

Slurm 的運作狀態監控代理程式已在提供 HyperPod 的所有區域中推出。代理程式會在所有新建立的 Slurm 叢集上自動啟用;若要在現有叢集上啟用代理程式,只需呼叫 UpdateClusterSoftware API 來升級至最新的 HyperPod AMI 即可。若要進一步了解,請瀏覽 Amazon SageMaker HyperPod 文件