发布于: May 22, 2023
AWS ParallelCluster 3.6 现已正式推出。主要的新功能包括支持 GPU 实例的自动运行状况检查,以及支持 Red Hat Enterprise Linux (RHEL8)。此版本中的其他重要功能包括:
- 自定义并非由 ParallelCluster 管理的 Slurm 设置
- 一个编程接口,可使用 AWS CloudFormation 管理 ParallelCluster
- 支持多达 50 个队列,每个集群共支持 50 个计算资源
- ParallelCluster 界面中基于标签的成本监控
- 支持队列、首节点和由 ParallelCluster 管理的存储的自定义资源标签
- 扩展了 Amazon CloudWatch 的磁盘使用量、闲置实例和错误等指标
- 通过可配置的日志轮换提高了首节点的弹性
有关该版本的更多详细信息,请查看 AWS ParallelCluster 3.6 发行说明。
AWS ParallelCluster 是一种受到全面支持和维护的开源集群管理工具,利用此工具,研发客户及其 IT 管理员可以在 AWS 上运行高性能计算 (HPC) 集群。ParallelCluster 旨在以安全方式自动将云资源预置为可弹性扩展的 HPC 集群,以便在 AWS 上大规模运行科学、工程和机器学习 (ML/AI) 工作负载。