Amazon SageMaker HyperPod 现已支持对使用 Slurm 编排的集群进行持续预置
Amazon SageMaker HyperPod 现已将持续预置支持扩展至使用 Slurm 编排工具的集群,从而为运行大规模人工智能/机器学习工作负载的企业客户提供更大的灵活性和更高的效率。运行基于 Slurm 的集群的人工智能/机器学习客户需要快速开始训练、无缝扩展、在不中断运营的情况下进行维护,并对集群运营拥有精细的可见性。以前,只要任一实例组无法完全预置,整个集群的创建或扩展操作就会失败并回滚,进而导致延迟,并且需要人工干预。
通过对 Slurm 进行持续预置,SageMaker HyperPod 可自动在后台预置剩余容量,同时可以在可用实例上立即开始训练作业。该系统使用基于优先级的预置,首先启动 Slurm 控制器节点,随后并行启动登录节点和 Worker 节点,从而使您的集群能够尽快进入可操作状态。HyperPod 会异步重试失败的节点启动,并在这些节点可用时自动将其添加到 Slurm 集群中,从而确保集群能够可靠地达到所需规模,而无需人工干预。现在,您可以跨多个实例组执行并发的、无阻碍扩展操作 – 单个实例组的容量不足问题将不再阻碍其他实例组的扩展。这些功能有助于客户缩短训练时间,最大限度地提高资源利用率,并专注于创新而非基础设施管理。
此功能适用于使用 Slurm 编排工具的新 SageMaker HyperPod 集群。在使用 CreateCluster API 创建新的 HyperPod 集群时,您可以通过将 NodeProvisioningMode 参数设置为“Continuous”来启用持续预置。在通过 AWS CLI 和 SageMaker AI 控制台创建新的集群时,也可以启用持续预置。
此功能现已在支持 Amazon SageMaker HyperPod 的所有 AWS 区域推出。要了解有关对 Slurm 集群进行持续预置的更多信息,请参阅 Amazon SageMaker HyperPod 用户指南。