SageMaker HyperPod 現在支援適用於分散式訓練工作負載的群組排程

張貼日期: 2026年4月8日

Amazon SageMaker HyperPod 任務治理現在支援群組排程,可確保分散式訓練任務所需的所有 Pod 都會在訓練開始前準備就緒。管理員可以設定群組排程,以防止部分任務執行所導致的運算浪費,並避免因任務等待資源而導致死結。

使用 EKS 協調器在 Amazon SageMaker HyperPod 叢集上執行分散式 AI/ML 訓練任務的資料科學家需要多個 Pod 跨節點進行 Pod 對 Pod 通訊來分工合作。在某些 Pod 已啟動,但其他 Pod 未啟動的情況下,任務可能會在未取得進度的情況下保留資源,導致其他工作負載無法進行,進而增加成本。群組排程可以透過監控工作負載中的所有 Pod,並在所有 Pod 未在固定的時間內就緒時將工作負載撤回,藉以解決此問題。系統會自動將撤回的工作負載重新排入佇列,以避免停滯。管理員可以調整 HyperPod 主控台上的設定,例如要等待 Pod 就緒的時間、如何處理節點失敗、是否要一次認可一個工作負載以避免在繁忙叢集上導致死結,以及重試的排程方式。

此功能目前在下列 AWS 區域適用於使用 EKS 協調器的 Amazon SageMaker HyperPod 叢集:美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (加利佛尼亞北部)、美國西部 (奧勒岡)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太地區 (雪梨) 與亞太地區 (東京)、亞太區域 (雅加達)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (斯德哥爾摩)、歐洲 (西班牙) 以及南美洲 (聖保羅)。

若要進一步了解,請造訪 SageMaker HyperPod 網頁,以及 HyperPod 任務治理文件