Amazon SageMaker HyperPod 现在支持 API 驱动的 Slurm 配置

发布于: 2026年2月26日

Amazon SageMaker HyperPod 现在支持 API 驱动的 Slurm 配置,您可以直接在集群创建和更新 API 中或通过 AWS 管理控制台定义 Slurm 拓扑和共享文件系统配置。SageMaker HyperPod 可帮助您为运行机器学习(ML)工作负载和开发最先进的模型(如大语言模型(LLM)、扩散模型和基础模型(FM))预置弹性集群。

借助这一全新的 API 驱动配置,您现在可以直接在集群 API 定义中或通过 AWS 管理控制台的高级配置部分,指定集群实例组的 Slurm 节点类型,包括控制器、登录和计算;实例组与分区的映射关系;以及按实例组配置的适用于 Lustre 的 FSx 和适用于 OpenZFS 的 FSx 文件系统挂载。当您直接在 Slurm 的本机配置文件中修改分区与节点的映射关系以微调集群资源分配时,Slurm 的分区节点配置可能与 HyperPod 的视图产生漂移。新的集群级 SlurmConfigStrategy 提供以下三个选项帮助您管理漂移:托管、覆盖和合并。托管策略允许您完全通过 API 或控制台管理实例组与分区的映射关系,并在纵向扩展或缩减操作过程中,自动检测分区与节点映射关系的漂移。当检测到漂移时,集群更新将暂停,直到您通过以下方法解决此问题:切换到覆盖策略以强制执行 API 定义的映射,切换到合并策略以保留手动自定义,或者直接更新 Slurm 配置以与 HyperPod 保持一致。

API 驱动的 Slurm 配置已在所有提供 SageMaker HyperPod 的 AWS 区域推出。要开始使用,您可以使用 AWS 管理控制台、AWS CLI、AWS CloudFormation 或 AWS SDK。有关更多信息,请参阅 Amazon SageMaker HyperPod 文档中有关使用控制台CLI 创建集群的内容,以及 CreateClusterUpdateCluster 的 API 参考。