发布于: Nov 2, 2020

我们激动地宣布 Elastic Fabric Adapter (EFA) 现在支持 NVIDIA GPUDirect 远程直接内存访问 (RDMA)。EFA 对 GPUDirect RDMA 的支持将在 Amazon Elastic Compute Cloud (Amazon EC2) P4d 实例上推出,该实例是 AWS 上基于 GPU 的下一代实例。P4d 为云中的机器学习 (ML) 训练和高性能计算 (HPC) 提供最高性能,以用于自然语言处理、对象检测和分类、地震数据分析和计算药物开发等应用。EFA 对 GPUDirect RDMA 的支持通过网络接口卡 (NIC) 直接访问 GPU 内存。这避免了额外的内存复制,从而更快地在 NVIDIA 基于 GPU 的 Amazon EC2 实例上进行远程 GPU 到 GPU 通信,减少 CPU 和用户应用程序的编排开销。因此,使用 NVIDIA Collective Communications Library (NCCL) 在 P4d 上运行应用程序的客户将能够进一步加快其多节点紧密耦合工作负载的速度。

P4d 实例与上一代 P3 和 P3dn 实例相比,最高能降低 60% 的成本,将深度学习性能提高 2.5 倍以上,并将内存增加 2.5 倍,双精度浮点运算处理能力提高两倍,以及基于 NVMe 的本地 SSD 存储提高 4 倍。它们有 p4d.24xl 大小可供使用,从而提供 96 个 vCPU、8 个 NVIDIA A100 GPU、1.1 TB 实例内存、8 TB 基于 NVMe 的本地 SSD 存储、19 Gbps 的 EBS 突增带宽,以及 400 Gbps 的 EFA 和 GPUDirect RDMA 网络带宽。

EFA 是 Amazon EC2 实例的定制网络接口,使客户能够在 AWS 上大规模运行需要高级别实例间通信的应用程序。要了解有关如何使用 EFA 的更多信息,请参阅 EFA 文档。 要了解有关使用 EFA 扩展 HPC 和 ML 工作负载的更多信息,请访问 AWS HPC 研讨会。