宣布在 Slurm 中支持 Amazon SageMaker HyperPod 集群的多头节点
发布于:
2025年3月26日
我们很高兴推出对 Amazon SageMaker HyperPod 集群的多头节点支持。这项新功能可提高大规模生成式人工智能模型开发工作负载的容错能力和可用性。
当单个头节点管理作业调度和资源分配时,其可能成为客户运行大规模人工智能工作负载的关键瓶颈。如果该节点出现故障或无响应,可能导致任务失败和停机,最终影响培训时间。
通过本次发布,客户现在可以在单个 HyperPod Slurm 集群中配置多个头节点:一个主(控制器)头节点控制所有计算(工作)节点并管理 Slurm 操作,另一个备份头节点处于备用状态。如果主头节点发生故障,Slurm 会自动将集群操作转移至备份节点,最大限度地减少停机时间,确保工作负载的持续可用性。此外,客户仍可管理自己的会计数据库和 Slurm 配置,同时确保工作负载的持续可用性。
此功能已在全面提供 HyperPod 的所有区域推出。要了解有关全新的多头节点功能的更多信息,并使用多头节点建立第一个 HyperPod 集群,请访问 Amazon SageMaker HyperPod 文档。