支持 P6‑B300 与 Slurm 25.11 的 AWS ParallelCluster 3.15
AWS ParallelCluster 3.15 现已全面推出。此版本增加了对 P6-B300 实例类型的支持,并将 Slurm 升级至 25.11 版本,并支持快速作业重新排队功能。
借助对 P6‑B300 的支持,您可以在最新的 NVIDIA Blackwell GPU 基础设施上运行对要求严苛的人工智能/机器学习及高性能计算工作负载。此版本包含改进后的 EFA 网络配置默认值,并且支持网络接口自定义。要了解如何自定义网络接口,请参阅使用启动模板覆盖项自定义计算节点网络接口。其他改进包括:集群更新的可靠性更高、大型集群中紧耦合工作负载的性能得到优化,以及支持在不中断服务的情况下更新集群标签。有关更多详细信息,请查看 AWS ParallelCluster 3.15.0 发行说明。
AWS ParallelCluster 是一种开源集群管理工具,可让研发客户及其 IT 管理员在 AWS 上运行高性能计算(HPC)集群。ParallelCluster 旨在以安全方式自动将云资源预置为可弹性扩展的 HPC 集群,以便在 AWS 上大规模运行科学和工程工作负载。ParallelCluster 现已在此处列出的 AWS 区域免费提供,您只需为运行应用程序所需的 AWS 资源付费。
有关在 AWS 上启动 HPC 集群的更多信息,请访问 ParallelCluster 用户指南。要开始使用 ParallelCluster,请参阅 ParallelCluster UI 和 CLI 的安装说明。