新增功能 – 用于机器学习和 HPC 的配备 GPU 的 EC2 P4 实例

近十年来，Amazon EC2 团队一直为我们的客户提供配备 GPU 的实例。第一代集群 GPU 实例于 2010 年末发布，随后推出了 G2（2013 年）、P2（2016 年）、P3（2017 年）、G3（2017 年）、P3dn（2018 年）和 G4（2019 年）实例。每一代产品都包含了功能越来越强大的 GPU 以及足够的 CPU 能力、内存和网络带宽，以允许最大限度地利用 GPU。

新 EC2 P4 实例
今天，我想向您介绍全新配备 GPU 的 P4 实例。这些实例由最新 Intel^® Cascade Lake 处理器提供支持，并配备八个最新的 NVIDIA A100 Tensor Core GPU，每一个均通过 NVLink 相互连接并且支持 NVIDIA GPUDirect。凭借 2.5 PetaFLOPS 的浮点性能和 320 GB 高带宽 GPU 内存，相比 P3 实例，该实例可以实现高达 2.5 倍深度学习性能，并且可以将训练成本降低高达 60%。

P4 实例包括 1.1 TB 系统内存和 8 TB 基于 NVME 的 SSD 存储，后者可提供每秒高达 16 千兆字节的读取吞吐量。

在网路方面，您可以访问四个专为 P4 实例设计的、至千万亿位无阻塞网络光纤的专用 100 Gbps 网络连接（通过 EFA 访问），以及可支持 80K IOPS 的 19 Gbps EBS 带宽。

EC2 UltraClusters
NVIDIA A100 GPU 支持 NVIDIA GPUDirect、400 Gbps 网络连接、千万亿位网络光纤，并且可访问诸如 S3、Amazon FSx for Lustre 和 AWS ParallelCluster 等 AWS 服务，它可以为您提供创建具有 4000 个或更多 GPU 的按需 EC2 UltraClusters 所需的一切：

这些集群可以承担最艰难的超级计算机机器学习和 HPC 工作负载：自然语言处理、物体识别和分类、场景理解、地震分析、天气预报、金融建模等等。

现已推出
P4 实例提供一种尺寸 (p4d.24xlarge)，您目前可以在美国东部（弗吉尼亚北部）和美国西部（俄勒冈）区域启用它们。您的 AMI 需要安装 NVIDIA A100 驱动程序和最新的 ENA 驱动程序（深度学习容器）已更新）。

如果您使用多个 P4 来运行分布式训练作业，则可以使用 EFA 和兼容 MPI 的应用程序来充分利用 400 Gbps 网络和千万亿位网络光纤。

您可以通过按需、Savings Plan、预留实例和 Spot 表单购买 P4 实例。对在托管 AWS 服务（如 Amazon SageMaker 和 Amazon Elastic Kubernetes Service）中使用 P4 实例的支持目前正处于准备阶段，将在今年年末推出。

听听 Dave 所讲
我的同事 Dave Brown 对于 P4 实例有更多的看法：

了解更多
要详细了解 P4d 实例与上一代 (P3) 实例的性能对比，请阅读 UltraClusters 中的 Amazon EC2 P4d 实例。有关定价和其他技术方面的详细信息，请阅读 P4 实例。

— Jeff；

亚马逊AWS官方博客

新增功能 – 用于机器学习和 HPC 的配备 GPU 的 EC2 P4 实例