Amazon SageMaker HyperPod 现在支持自定义 Kubernetes 标签和污点
Amazon SageMaker HyperPod 现在支持自定义 Kubernetes 标签和污点,让客户能够控制容器组调度并与现有的 Kubernetes 基础设施无缝集成。在使用 EKS 编排的 HyperPod 集群上部署人工智能工作负载的客户,需要精确控制工作负载的部署位置,以避免昂贵的 GPU 资源被系统容器组或非人工智能工作负载占用,同时确保与自定义设备插件(例如 EFA 和 NVIDIA GPU Operator)的兼容性。以前,客户必须使用 kubectl 手动添加标签和污点,并且在每次节点替换、扩缩或修补操作后都需要重新设置,导致运营开销显著增加。
这项功能让您能够通过 CreateCluster API 和 UpdateCluster API 在实例组级别配置标签和污点,从而以托管方式在整个节点生命周期内定义并维护调度策略。使用新的 KubernetesConfig 参数,您可以为每个实例组指定最多 50 个标签和 50 个污点。标签支持通过节点选择器实现资源组织和容器组定位,而污点则会拒绝没有对应容忍度的容器组,从而保护专用节点。例如,您可以对 GPU 实例组应用 NoSchedule 污点,以确保只有具有明确容忍度的人工智能训练作业才能使用高成本的计算资源;或者添加自定义标签,使设备插件容器组能够正确调度。HyperPod 会在节点创建期间自动应用这些配置,并在节点替换、扩缩和修补操作过程中对其进行维护,从而无需手动干预并降低运营开销。
这项功能已在提供 Amazon SageMaker HyperPod 的所有 AWS 区域推出。要了解有关自定义标签和污点的更多信息,请参阅用户指南。