Amazon SageMaker HyperPod 現在支援隨需深度運作狀態檢查
張貼日期:
2026年4月17日
Amazon SageMaker HyperPod 現在支援適用於 Amazon EKS 和 Slurm 協調叢集的隨需深度運作狀態檢查,使您得以隨時主動驗證執行中執行個體上的 GPU 加速器運作狀態。HyperPod Slurm 協調叢集現在也支援節點佈建期間的深度運作狀態檢查 (在建立叢集時)。此功能可解決一項嚴重障礙,即單一的狀態不佳節點也可能會浪費數小時的運算時間並延遲關鍵工作負載。
有了隨需深度運作狀態檢查,您就能針對整個執行個體群組或特定執行個體來執行全面的硬體壓力測試和連線測試,然後再將運算資源提交至工作。系統能夠透過 SageMaker 主控台和 API,在執行個體群組和執行個體層級顯示進度和結果,從而提供關於 GPU 運作狀態、網路連線和多節點通訊效能的完整可見性。系統會自動將進行檢查的執行個體與工作負載排程隔離,並在通過檢查時恢復服務。與 HyperPod 的自動節點還原功能搭配時,系統會自動重新啟動或更換故障的執行個體,以確保叢集的運作狀態良好。
此功能適用於提供 Amazon SageMaker HyperPod 的所有區域。若要進一步了解隨需運作狀態檢查,請參閱文件。