亚马逊AWS官方博客

新增功能 – 用于机器学习和 HPC 的配备 GPU 的 EC2 P4 实例

近十年来,Amazon EC2 团队一直为我们的客户提供配备 GPU 的实例。第一代集群 GPU 实例于 2010 年末发布,随后推出了 G2(2013 年)、P2(2016 年)、P3(2017 年)、G3(2017 年)、P3dn(2018 年)和 G4(2019 年)实例。每一代产品都包含了功能越来越强大的 GPU 以及足够的 CPU 能力、内存和网络带宽,以允许最大限度地利用 GPU。

新 EC2 P4 实例
今天,我想向您介绍全新配备 GPU 的 P4 实例。这些实例由最新 Intel® Cascade Lake 处理器提供支持,并配备八个最新的 NVIDIA A100 Tensor Core GPU,每一个均通过 NVLink 相互连接并且支持 NVIDIA GPUDirect。凭借 2.5 PetaFLOPS 的浮点性能和 320 GB 高带宽 GPU 内存,相比 P3 实例,该实例可以实现高达 2.5 倍深度学习性能,并且可以将训练成本降低高达 60%。

P4 实例包括 1.1 TB 系统内存和 8 TB 基于 NVME 的 SSD 存储,后者可提供每秒高达 16 千兆字节的读取吞吐量。

在网路方面,您可以访问四个专为 P4 实例设计的、至千万亿位无阻塞网络光纤的专用 100 Gbps 网络连接(通过 EFA 访问),以及可支持 80K IOPS 的 19 Gbps EBS 带宽。

EC2 UltraClusters
NVIDIA A100 GPU 支持 NVIDIA GPUDirect、400 Gbps 网络连接、千万亿位网络光纤,并且可访问诸如 S3、Amazon FSx for LustreAWS ParallelCluster 等 AWS 服务,它可以为您提供创建具有 4000 个或更多 GPU 的按需 EC2 UltraClusters 所需的一切:

这些集群可以承担最艰难的超级计算机机器学习和 HPC 工作负载:自然语言处理、物体识别和分类、场景理解、地震分析、天气预报、金融建模等等。

现已推出
P4 实例提供一种尺寸 (p4d.24xlarge),您目前可以在美国东部(弗吉尼亚北部)美国西部(俄勒冈)区域启用它们。您的 AMI 需要安装 NVIDIA A100 驱动程序和最新的 ENA 驱动程序深度学习容器)已更新)。

如果您使用多个 P4 来运行分布式训练作业,则可以使用 EFA 和兼容 MPI 的应用程序来充分利用 400 Gbps 网络和千万亿位网络光纤。

您可以通过按需、Savings Plan、预留实例和 Spot 表单购买 P4 实例。对在托管 AWS 服务(如 Amazon SageMakerAmazon Elastic Kubernetes Service)中使用 P4 实例的支持目前正处于准备阶段,将在今年年末推出。

听听 Dave 所讲
我的同事 Dave Brown 对于 P4 实例有更多的看法

了解更多
要详细了解 P4d 实例与上一代 (P3) 实例的性能对比,请阅读 UltraClusters 中的 Amazon EC2 P4d 实例。有关定价和其他技术方面的详细信息,请阅读 P4 实例

Jeff