Amazon SageMaker HyperPod 现已支持自动 Slurm 拓扑管理

发布于: 2026年4月23日

Amazon SageMaker HyperPod 现在支持根据集群中的 GPU 实例类型,为 Slurm 集群自动选择并持续维护最佳网络拓扑配置。网络拓扑直接影响分布式训练性能,当作业放置在拓扑结构接近的节点上时,GPU 与 GPU 间的通信会更快,NCCL 集体操作会更高效,训练吞吐量也会更高。随着集群的发展,HyperPod 会通过扩展操作和节点更换来动态调整拓扑,让作业置放在整个集群生命周期中保持优化,而无需手动更新拓扑文件或 Slurm 重新配置。

HyperPod 在创建集群时会检查所有实例组的实例类型,确定每种实例类型的联网和互连特征,并自动选择最适合的拓扑模型。HyperPod 针对具有分层互连的实例类型(例如 ml.p5.48xlarge、ml.p5e.48xlarge 和 ml.p5en.48xlarge)支持树拓扑,针对具有统一高带宽连接的实例类型(例如 ml.p6e-gb200.NVL72)支持块拓扑。对于使用混合实例类型的集群,HyperPod 会选择适用于所有节点的兼容拓扑。当集群通过扩展、缩减或节点更换事件发生变化时,HyperPod 会自动更新拓扑配置而无需手动干预,让拓扑始终反映集群的实际状态。

要开始使用,请通过支持的 GPU 实例类型创建一个 SageMaker HyperPod Slurm 集群。拓扑感知安排在默认情况下处于启用状态,无需配置。

此功能现已在支持 Amazon SageMaker HyperPod 的所有 AWS 区域推出。要了解有关拓扑感知安排的更多信息,请访问 Amazon SageMaker HyperPod 文档