Amazon SageMaker HyperPod 現在支援彈性的執行個體群組
Amazon SageMaker HyperPod 現在支援彈性的執行個體群組,讓客戶能夠在單一執行個體群組中指定多個執行個體類型和多個子網路。在 HyperPod 上執行訓練和推論工作負載的客戶,通常需要跨越多個執行個體類型和可用區域以實現容量彈性、成本最佳化和使用子網路,但在這之前,客戶必須為每個執行個體類型和可用區域組合建立和管理單獨的執行個體群組,從而導致在叢集組態、擴展、修補和監控方面產生營運費用。
有了彈性執行個體群組,您就能使用新的 InstanceRequirements 參數來定義執行個體類型的順序清單,並在單一執行個體群組中提供跨可用區域的多個子網路。HyperPod 會先佈建使用最高優先順序類型的執行個體,並在容量無法使用時自動回復為較低優先順序類型,使客戶無須跨個別執行個體群組手動重試。進行訓練的客戶可受益於可用區域內的多子網路分佈,以避免子網路耗盡。手動擴展的推論客戶可在不同執行個體類型之間自動依優先順序進行回復,無須單獨重試每個執行個體群組,而使用 Karpenter 自動擴展的客戶可以參考單一彈性執行個體群組。Karpenter 會自動從彈性執行個體群組偵測支援的執行個體類型,並根據 Pod 需求佈建最佳類型和可用區域。您可以使用 CreateCluster 和 UpdateCluster API、AWS CLI 或 AWS 管理主控台來建立彈性的執行個體群組。
彈性執行個體群組在支援 SageMaker HyperPod 的所有 AWS 區域適用於使用 EKS 協調器的 SageMaker HyperPod 叢集。若要進一步了解,請參閱彈性執行個體群組。