Amazon SageMaker HyperPod 现已支持自动 Slurm 拓扑管理

发布于: 2026年4月23日

Amazon SageMaker HyperPod 现在支持根据集群中的 GPU 实例类型，为 Slurm 集群自动选择并持续维护最佳网络拓扑配置。网络拓扑直接影响分布式训练性能，当作业放置在拓扑结构接近的节点上时，GPU 与 GPU 间的通信会更快，NCCL 集体操作会更高效，训练吞吐量也会更高。随着集群的发展，HyperPod 会通过扩展操作和节点更换来动态调整拓扑，让作业置放在整个集群生命周期中保持优化，而无需手动更新拓扑文件或 Slurm 重新配置。

HyperPod 在创建集群时会检查所有实例组的实例类型，确定每种实例类型的联网和互连特征，并自动选择最适合的拓扑模型。HyperPod 针对具有分层互连的实例类型（例如 ml.p5.48xlarge、ml.p5e.48xlarge 和 ml.p5en.48xlarge）支持树拓扑，针对具有统一高带宽连接的实例类型（例如 ml.p6e-gb200.NVL72）支持块拓扑。对于使用混合实例类型的集群，HyperPod 会选择适用于所有节点的兼容拓扑。当集群通过扩展、缩减或节点更换事件发生变化时，HyperPod 会自动更新拓扑配置而无需手动干预，让拓扑始终反映集群的实际状态。

要开始使用，请通过支持的 GPU 实例类型创建一个 SageMaker HyperPod Slurm 集群。拓扑感知安排在默认情况下处于启用状态，无需配置。

此功能现已在支持 Amazon SageMaker HyperPod 的所有 AWS 区域推出。要了解有关拓扑感知安排的更多信息，请访问 Amazon SageMaker HyperPod 文档

Amazon SageMaker HyperPod 现已支持自动 Slurm 拓扑管理

了解

资源

开发人员

帮助