Amazon SageMaker HyperPod 現在支援自訂 Kubernetes 標籤和污點

張貼日期: 2025年11月26日

Amazon SageMaker HyperPod 現在支援自訂 Kubernetes 標籤和污點,讓客戶得以控制 Pod 排程,並與現有 Kubernetes 基礎結構順暢整合。在 EKS 協調的 HyperPod 叢集上部署 AI 工作負載的客戶,需要精確控制工作負載的放置位置,以防止系統 Pod 和非 AI 工作負載取用昂貴的 GPU 資源,同時確保與自訂裝置外掛程式 (例如 EFA 和 NVIDIA GPU 運算子) 的相容性。先前,客戶必須使用 kubectl 手動套用標籤和污點,並在每次節點取代、擴展或修補操作後重新套用,而這會產生大量的作業負擔。

此功能讓您得以透過 CreateCluster 和 UpdateCluster API,在執行個體群組層級設定標籤和污點,從而提供一種可在整個節點生命週期中定義和維護排程政策的受管方法。透過新的 KubernetesConfig 參數,您最多可針對每個執行個體群組指定 50 個標籤和 50 個污點。標籤可讓您透過節點選取器完成資源組織和 Pod 定位作業,而污點則會摒棄沒有比對容錯性的 Pod,進而保護專用節點。例如,您可以將 NoSchedule 污點套用至 GPU 執行個體群組,確保只有具備明確容錯性的 AI 訓練任務會取用高成本的運算資源,或新增使裝置外掛程式 Pod 能夠正確排程的自訂標籤。HyperPod 會在節點建立期間自動套用這些組態,並在取代、擴展和修補作業中對其進行維護,從而消除手動干預並降低作業負擔。

此功能適用於提供 Amazon SageMaker HyperPod 的所有 AWS 區域。若要進一步了解自訂標籤和污點,請參閱使用者指南