亚马逊AWS官方博客
新增功能 – 用于机器学习和 HPC 的配备 GPU 的 EC2 P4 实例
近十年来,Amazon EC2 团队一直为我们的客户提供配备 GPU 的实例。第一代集群 GPU 实例于 2010 年末发布,随后推出了 G2(2013 年)、P2(2016 年)、P3(2017 年)、G3(2017 年)、P3dn(2018 年)和 G4(2019 年)实例。每一代产品都包含了功能越来越强大的 GPU 以及足够的 CPU 能力、内存和网络带宽,以允许最大限度地利用 GPU。
新 EC2 P4 实例
今天,我想向您介绍全新配备 GPU 的 P4 实例。这些实例由最新 Intel® Cascade Lake 处理器提供支持,并配备八个最新的 NVIDIA A100 Tensor Core GPU,每一个均通过 NVLink 相互连接并且支持 NVIDIA GPUDirect。凭借 2.5 PetaFLOPS 的浮点性能和 320 GB 高带宽 GPU 内存,相比 P3 实例,该实例可以实现高达 2.5 倍深度学习性能,并且可以将训练成本降低高达 60%。
P4 实例包括 1.1 TB 系统内存和 8 TB 基于 NVME 的 SSD 存储,后者可提供每秒高达 16 千兆字节的读取吞吐量。
在网路方面,您可以访问四个专为 P4 实例设计的、至千万亿位无阻塞网络光纤的专用 100 Gbps 网络连接(通过 EFA 访问),以及可支持 80K IOPS 的 19 Gbps EBS 带宽。
EC2 UltraClusters
NVIDIA A100 GPU 支持 NVIDIA GPUDirect、400 Gbps 网络连接、千万亿位网络光纤,并且可访问诸如 S3、Amazon FSx for Lustre 和 AWS ParallelCluster 等 AWS 服务,它可以为您提供创建具有 4000 个或更多 GPU 的按需 EC2 UltraClusters 所需的一切:
这些集群可以承担最艰难的超级计算机机器学习和 HPC 工作负载:自然语言处理、物体识别和分类、场景理解、地震分析、天气预报、金融建模等等。
现已推出
P4 实例提供一种尺寸 (p4d.24xlarge),您目前可以在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域启用它们。您的 AMI 需要安装 NVIDIA A100 驱动程序和最新的 ENA 驱动程序(深度学习容器)已更新)。
如果您使用多个 P4 来运行分布式训练作业,则可以使用 EFA 和兼容 MPI 的应用程序来充分利用 400 Gbps 网络和千万亿位网络光纤。
您可以通过按需、Savings Plan、预留实例和 Spot 表单购买 P4 实例。对在托管 AWS 服务(如 Amazon SageMaker 和 Amazon Elastic Kubernetes Service)中使用 P4 实例的支持目前正处于准备阶段,将在今年年末推出。
听听 Dave 所讲
我的同事 Dave Brown 对于 P4 实例有更多的看法:
了解更多
要详细了解 P4d 实例与上一代 (P3) 实例的性能对比,请阅读 UltraClusters 中的 Amazon EC2 P4d 实例。有关定价和其他技术方面的详细信息,请阅读 P4 实例。
— Jeff;