Amazon SageMaker HyperPod 現在支援以程式設計方式重新啟動和替代節點

張貼日期: 2025年11月26日

Amazon SageMaker HyperPod 今日宣佈正式推出全新的 API,這些 API 可讓您以程式設計方式重新啟動和取代 SageMaker HyperPod 叢集節點。SageMaker HyperPod 可協助您佈建彈性叢集,以便執行機器學習 (ML) 工作負載並開發最先進的模型,例如大型語言模型 (LLM)、擴散模型和基礎模型 (FM)。新的 BatchRebootClusterNodes 和 BatchReplaceClusterNodes API 可讓客戶以程式設計方式重新啟動或取代無回應或降級的叢集節點,從而為節點復原作業提供一致且與協調器無關的操作方法。

新的 API 可增強 Slurm 和 EKS 協調叢集的節點管理功能,為現有的節點重新啟動和取代工作流程提供互補。您依然可以使用現有的協調器特定方法 (例如 EKS 叢集的 Kubernetes 標籤和 Slurm 叢集的 Slurm 命令),並可搭配新導入的程式設計功能,透過這些專門建置的 API 重新啟動和取代作業。當叢集節點因記憶體溢位或硬體降級等問題而無法回應時,就可能需要執行重新啟動和取代節點等復原作業,並且您能夠透過這些新 API 起始這些作業。這些功能在執行時間敏感型工作負載時格外有價值。例如,當 Slurm 控制器、登入或運算節點停止回應時,管理員可以使用 API 觸發重新啟動作業並監控其進度,從而使節點恢復運作。同樣地,EKS 叢集管理員能夠以程式設計方式取代降級的工作節點。每個 API 最多可支援 25 個執行個體的批次操作,能夠讓您有效管理大規模復原案例。

SageMaker HyperPod 的三個 AWS 區域目前支援重新啟動和取代 API:美國東部 (俄亥俄)、亞太地區 (孟買) 和亞太地區 (東京)。您能夠透過 AWS CLI、SDK 或 API 呼叫來存取這些 API。如需詳細資訊,請參閱有關 BatchRebootClusterNodesBatchReplaceClusterNodes 的 Amazon SageMaker HyperPod 文件。