AWS ParallelCluster 2.10

AWS ParallelCluster 现在支持 NVIDIA GPUDirect RDMA

发布于: Nov 19, 2020

AWS ParallelCluster 是一个受到全面支持和维护的开源集群管理工具，使科学家、研究人员和 IT 管理员可以轻松地在 AWS 云中部署和管理高性能计算 (HPC) 集群。HPC 集群是紧密耦合的计算、存储和联网资源的集合，使客户能够运行大规模的科学和工程工作负载。

此最新版本 AWS ParallelCluster 的重要增强功能包括：

支持 P4d 实例: 使用者现在可以选择在其集群中使用 P4d 实例。这些实例包括支持 NVIDIA GPUDirect Remote Direct Memory Access (RDMA) 通过Elastic Fabric Adapter 启动，这可以加速紧密耦合应用程序使用 NVIDIA Collective Communications Library (NCCL)，以适用于GPU-to-GPU通信。此选项可通过新的 enable_efa_gdr 配置设置启动。

支持 CentOS 8 Operating System: 使用者现在可以选择 CentOS 8 作为其基础操作系统选择，以在 x86 和 Arm 构建上运行其集群。与 AWS ParallelCluster 支持的其他操作系统一样，您可以使用 base_os 配置选项来选择您的操作系统，还可以选择创建并使用您基于 CentOS 8 构建的自定义 AMI。CentOS 8 支持还包括与所有的 AWS ParallelCluster 支持计划程序和远程可视化 Nice DCV 的兼容性。

Amazon CloudWatch Cluster Metrics Dashboard: 使用者可以在 CloudWatch 中追踪和可视化其集群操作指标。其包括的指标有如 CPU和网络使用率、文件系统读取和写入的数据操作、Amazon Elastic Block Store 卷的读取和写入操作。使用者可以使用此控制面板可视化集群使用情况，或识别性能瓶颈以诊断如何最佳地提高集群性能。

AWS ParallelCluster 无需额外费用，您只需为运行应用程序所需的 AWS 资源付费。要了解如何使用 AWS ParallelCluster 来启动 HPC 集群，请访问此处。

有关更多详细信息，您可以参阅此处 AWS ParallelCluster 最新版本的完整发行说明。