Amazon SageMaker HyperPod Slurm 集群现在支持通过持续预置来指定最低容量要求

发布于: 2026年5月27日

Amazon SageMaker HyperPod 现在支持使用 Slurm 编排和持续预置为集群指定最低容量要求(MinCount)。通过持续预置,HyperPod 可为集群预置可用的部分容量,这样您就可以快速启动 AI/ML 作业,同时继续在后台异步预置剩余实例。虽然这提供了灵活性,但某些训练工作负载需要保证最低数量的节点才能有效启动。MinCount 允许您指定在实例组转换到 InService(正在运行)状态之前必须成功预置的最小实例数量,从而使您能够更好地控制集群何时可用于调度作业。

这对于使用 PyTorch FSDP、Megatron-LM 或 NVIDIA NeMo 等框架的分布式训练工作负载尤其有用,因为在这些工作负载中,训练作业通常配置了固定数量的参与节点,如果集群容量不足,可能无法高效或正确地启动。同时,这也适用于那些在开始训练前需要保证基准 GPU 数量以满足服务水平协议或成本效益目标的团队。

您可以在 CreateCluster 或 UpdateCluster API 请求中指定 MinInstanceCount,为实例组设置最低容量阈值。实例组将保持 Creating(正在创建)或 Updating(正在更新)状态,直至达到该阈值,随后将转换到 InService(正在运行)状态,此时节点即可用于调度 Slurm 作业。HyperPod 会继续启动超出 MinCount 的额外实例,直至达到目标数量。如果在 3 小时内无法满足 MinCount 的要求,系统会自动将实例组回滚到上次已知的正常状态。

通过持续预置为 Slurm 集群指定 MinCount 的功能已在支持 Amazon SageMaker HyperPod 的所有 AWS 区域推出。要开始为集群指定最低容量要求,请参阅 Amazon SageMaker AI 文档中的最低容量要求(MinCount)