发布于: May 22, 2023

AWS ParallelCluster 3.6 现已正式推出。主要的新功能包括支持 GPU 实例的自动运行状况检查,以及支持 Red Hat Enterprise Linux (RHEL8)。此版本中的其他重要功能包括:

  1. 自定义并非由 ParallelCluster 管理的 Slurm 设置
  2. 一个编程接口,可使用 AWS CloudFormation 管理 ParallelCluster
  3. 支持多达 50 个队列,每个集群共支持 50 个计算资源
  4. ParallelCluster 界面中基于标签的成本监控
  5. 支持队列、首节点和由 ParallelCluster 管理的存储的自定义资源标签
  6. 扩展了 Amazon CloudWatch 的磁盘使用量、闲置实例和错误等指标
  7. 通过可配置的日志轮换提高了首节点的弹性

有关该版本的更多详细信息,请查看 AWS ParallelCluster 3.6 发行说明

AWS ParallelCluster 是一种受到全面支持和维护的开源集群管理工具,利用此工具,研发客户及其 IT 管理员可以在 AWS 上运行高性能计算 (HPC) 集群。ParallelCluster 旨在以安全方式自动将云资源预置为可弹性扩展的 HPC 集群,以便在 AWS 上大规模运行科学、工程和机器学习 (ML/AI) 工作负载。

ParallelCluster 在此处列出的 AWS 区域免费提供,您只需为运行应用程序所需的 AWS 资源付费。要了解有关在 AWS 上启动 HPC 集群的更多信息,请访问 AWS ParallelCluster 用户指南。要开始使用 ParallelCluster,请参阅 ParallelCluster UICLI 的安装说明。