Amazon SageMaker HyperPod 现在支持灵活的实例组
Amazon SageMaker HyperPod 现在支持灵活的实例组,使客户能够在单个实例组中指定多个实例类型和多个子网。在 HyperPod 上运行训练和推理工作负载的客户通常需要跨越多个实例类型和可用区,以实现容量弹性、成本优化和子网利用率目标,但之前必须为每个实例类型和可用区组合创建和管理单独的实例组,导致在集群配置、扩展、修补和监控方面产生运营开销。
借助灵活的实例组,您可以使用新的 InstanceRequirements 参数定义实例类型的有序列表,并在单个实例组中提供跨可用区的多个子网。HyperPod 首先使用最高优先级的类型预置实例,并在容量不可用时自动回退到优先级较低的类型,从而无需客户在各个实例组之间手动重试。单个可用区内分布多个子网,避免子网耗尽,运行训练工作负载的客户可以从中受益。运行推理工作负载的手动扩展的客户可在不同实例类型间自动获得基于优先级的备用方案,无需对每个实例组单独重试,而使用 Karpenter 自动缩放的客户可以引用单个灵活的实例组。Karpenter 会自动从灵活的实例组中检测支持的实例类型,并根据容器组(Pod)要求预置最佳类型和可用区。您可以使用 CreateCluster 和 UpdateCluster API、AWS CLI 或 AWS 管理控制台创建灵活的实例组。
在支持 SageMaker HyperPod 的所有 AWS 区域中,使用 EKS 编排工具的 SageMaker HyperPod 集群均可使用灵活的实例组。要了解更多信息,请参阅灵活的实例组。