SageMaker HyperPod 現在支援閒置資源共享,以實現動態叢集使用率

張貼日期: 2026年3月16日

Amazon SageMaker HyperPod 任務治理現在支援動態資源共享,讓團隊可在超出其保證配額的情況下,借用 HyperPod 叢集中未配置的運算容量。管理員也可以為特定資源類型設定借用限制,例如加速器、vCPU 或記憶體,以確保團隊之間的公平分配。

執行生成式 AI 工作負載共用運算叢集的管理員,經常面臨使用率不足的挑戰。當 Data Scientist 未完全使用其分配的配額時,昂貴的運算執行個體就會保持閒置。閒置資源共享可透過自動識別未配置的叢集容量,並以盡力而為的方式提供給團隊借用,來解決這個問題。HyperPod 任務治理會監控您的叢集狀態,並在執行個體和運算配額政策發生變更時,自動重新計算可借用資源,免除手動設定。處於就緒且可排程狀態的合格執行個體,包括具有分割 GPU 組態的執行個體,都會納入未配置運算容量的可借用集區。除了以百分比為基礎的閒置運算借用限制外,管理員還可以定義絕對借用限制。這有助於管理員將運算使用率最大化,並對閒置容量如何在團隊間分配維持細緻控制,同時確保每個團隊的保證運算配額隔離。

此功能目前在下列 AWS 區域適用於使用 EKS 協調器的 Amazon SageMaker HyperPod 叢集:美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (加利佛尼亞北部)、美國西部 (奧勒岡)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太地區 (雪梨) 與亞太地區 (東京)、亞太區域 (雅加達)、歐洲 (法蘭克福)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (斯德哥爾摩)、歐洲 (西班牙) 以及南美洲 (聖保羅)。

若要進一步了解,請造訪 SageMaker HyperPod 網頁,以及 HyperPod 任務治理文件