跳至主要内容

Amazon EC2

Amazon EC2 P6e UltraServer 和 P6 实例

为人工智能训练和推理提供了最高的 GPU 性能

为何选择 Amazon EC2 P6e UltraServer 和 P6 实例?

Amazon Elastic Compute Cloud(Amazon EC2)P6e UltraServer 由 NVIDIA GB200 NVL72 加速,在 Amazon EC2 中提供了最高的 GPU 性能。使用 NVIDIA NVLinkTM 技术时,与 P5en 实例相比,P6e-GB200 的计算能力提高到 20 倍,内存增加到 11 倍。这些 UltraServer 非常适合计算和内存密集型人工智能工作负载,例如使用数万亿个参数来训练和部署前沿模型。与 P6e-GB200 实例相比,由 NVIDIA GB300 NVL72 加速的 P6e-GB300 UltraServer 的 GPU 内存增加到 1.5 倍,GPU TFLOPS(FP4,无稀疏性)提高到 1.5 倍。每个 UltraServer 拥有将近 20 TB 的 GPU 内存,因此 P6e-GB300 非常适合万亿参数规模的人工智能模型和使用案例。

Amazon EC2 P6 实例由 NVIDIA Blackwell 和 Blackwell Ultra GPU 加速,是大中型训练和推理应用程序的理想选择。与用于人工智能训练和推理的 P5en 实例相比,P6-B200 实例的性能提高到多达 2 倍,而 P6-B300 实例为大规模人工智能训练和推理提供了高性能。这些实例非常适合复杂的模型,例如混合专家(MoE)模型和具有数万亿参数的推理模型。

P6e UltraServer 和 P6 实例能够加速下一代人工智能模型的训练过程,并提高生产环境中的实时推理的性能。您可以使用 P6e UltraServer 和 P6 实例来训练 MoE 和推理模型等前沿基础模型(FM),并将它们部署到生成式人工智能和代理式人工智能应用程序(例如内容生成、企业 Copilot 和深度研究代理)中。

优势

P6e UltraServer

与 P6e-GB200 相比,P6e-GB300 为客户提供了 1.5 倍的 GPU 内存和 1.5 倍的 GPU TFLOPS(FP4,无稀疏性),可以为大多数计算和内存密集型人工智能工作负载提高性能。

借助 P6e-GB200 UltraServer,客户可以在一个 NVLink 域内访问多达 72 个 Blackwell GPU,进而利用 360 千万亿次浮点运算的 FP8 计算(无稀疏性)和 13.4 TB 的总高带宽内存(HBM3e)。P6e-GB200 UltraServer 在 GPU 之间提供了高达每秒 130 太字节的低延迟 NVLink 连接,以及高达每秒 28.8 太比特的总计 Elastic Fabric Adapter 网络(EFAv4)吞吐量,用于进行人工智能训练和推理。借助 P6e-GB200 的这种 UltraServer 架构,客户可以利用计算和内存方面的逐步改进,使用 NVLink 技术时,与 P5en 相比,GPU TFLOPS 提高到多达 20 倍,GPU 内存增加到 11 倍,总计 GPU 内存带宽增大到 15 倍。

P6 实例

P6-B300 实例配备 8 个 NVIDIA Blackwell Ultra GPU,提供 2.1 TB 高带宽 GPU 内存、6.4 Tbps EFA 网络、300 Gbps 专用 ENA 吞吐量,以及 4 TB 系统内存。与 P6-B200 实例相比,P6-B300 实例提供了 2 倍的网络带宽、1.5 倍的 GPU 内存大小和 1.5 倍的 GPU TFLOPS(在 FP4 上,无稀疏性)。凭借这些改进,P6-B300 实例非常适合大规模机器学习训练和推理。

P6-B200 实例配备 8 个 NVIDIA Blackwell GPU、1440 GB 高带宽 GPU 内存、第 5 代 Intel Xeon 可扩展处理器(Emerald Rapids)、2 TiB 系统内存、高达 14.4 TBp/s 的总计双向 NVLink 带宽以及 30 TB 本地 NVMe 存储。与 P5en 实例相比,这些实例具有高达 2.25 倍的 GPU TFLOP、1.27 倍的 GPU 内存大小和 1.6 倍的 GPU 内存带宽。

 

P6e UltraServer 和 P6 实例由 AWS Nitro System 提供支持,该系统配备专用的硬件和固件,旨在实施访问限制,以便确保包括 AWS 内部人员在内的任何人都无法访问您的敏感人工智能工作负载和数据。在保持运行状态的同时,处理网络、存储和其他 I/O 功能的 Nitro System 可以部署固件更新、错误修复和优化技术。这样可以提高稳定性并减少停机时间,对于按时完成训练以及在生产环境中运行人工智能应用程序至关重要。

为实现高效的分布式训练,P6e UltraServer 和 P6 实例使用第四代 Elastic Fabric Adapter 网络(EFAv4)。EFAv4 使用可扩展的可靠数据报(SRD)协议,智能地将流量路由到多个网络路径,即使在拥塞或故障期间也能保持平稳运行。

P6e UltraServer 和 P6 实例部署在 Amazon EC2 UltraClusters 中,可以在 PB 级的非阻塞网络内扩展到数万个 GPU。

功能

P6-B200 实例中的每个 NVIDIA Blackwell GPU 都采用第二代 Transformer Engine,并支持新的精度格式,例如 FP4。它支持第五代 NVLink,这是一种更快、更宽的互连,可以为每个 GPU 提供高达 1.8 TBp/s 的带宽。

Grace Blackwell 超级芯片是 P6e-GB200 的一个关键组件,利用 NVIDIA NVLink-C2C 互连来连接两个高性能 NVIDIA Blackwell GPU 和一个 NVIDIA Grace CPU。每个超级芯片可提供 10 千万亿次浮点运算的 FP8 计算(无稀疏性)和高达 372 GB 的 HBM3e。借助超级芯片架构,2 个 GPU 和 1 个 CPU 位于同一个计算模块内,与最新一代的 P5en 实例相比,GPU 与 CPU 之间的带宽增大了一个数量级。

NVIDIA Blackwell Ultra GPU 为 P6-B300 实例提供支持,与 P6-B200 实例相比,它的网络带宽增大到 2 倍,GPU 内存增加到 1.5 倍,有效 TFLOP 中的 FP4 计算能力提高到多达 1.5 倍(无稀疏性)。

P6e-GB300 UltraServer 中的 Grace Blackwell 超级芯片将两个 NVIDIA Blackwell Ultra GPU 与一个 NVIDIA Grace CPU 连接在一起,将 GPU 内存增加到 1.5 倍,将 FP4 计算能力提高到多达 1.5 倍(无稀疏性)。

P6e UltraServer 和 P6 实例提供了每 GPU 400 GB 预置存储容量的 EFAv4 网络,每个 P6e-GB200 UltraServer 总计 28.8 Tbps,每个 P6-B200 实例总计 3.2 Tbps。

P6-B300 实例提供了 6.4 Tbps 的网络带宽,是采用第六代 PCle 的 P6-B200 实例的 2 倍,专为大规模分布式深度学习模型训练而设计。

P6e UltraServer 和 P6 实例支持适用于 Lustre 的 Amazon FSx 文件系统,因此您能够以大规模人工智能训练和推理所需的数百 GBp/s 吞吐量和数百万 IOPS 来访问数据。P6e UltraServer 支持高达 405 TB 的本地 NVMe 固态硬盘存储,而 P6 实例支持高达 30 TB 的本地 NVMe 固态硬盘存储,可快速访问大型数据集。您还可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限且经济实惠的存储。

产品详细信息

实例类型

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
Instance storage (TB)
Network bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
p6-b300.48xlarge

8 个 Ultra

2144 HBM3e

192

4096

8 x 3.84

6.4

100

p6-b200.48xlarge

8

1432 HBM3e

192

2048

8 x 3.84

3.2

100

p6e-gb200.36xlarge

4

740 HBM3e

144

960

3 x 7.5

3.2

60

是*

*P6e-GB200 实例只在 UltraServer 中提供

UltraServer 类型

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
UltraServer Storage (TB)
Aggregate EFA bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
u-p6e-gb200x72

72

13320

2592

17280

405

28800

1080

u-p6e-gb200x36

36

6660

1,296

8640

202.5

14400

540

机器学习使用案例入门

Amazon SageMaker AI 是一项完全托管式服务,用于构建、训练和部署机器学习模型。借助 Amazon SageMaker HyperPod,您可以更轻松地扩展到数十个、数百个或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置和管理弹性训练集群的问题。(即将推出 P6e-GB200 支持)

AWS Deep Learning AMI(DLAMI)可为机器学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。 AWS Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像,可以让您跳过从头构建和优化环境的复杂流程,从而简化自定义机器学习环境的部署。

如果希望通过容器编排服务来管理您自己的容器化工作负载,您可以使用 Amazon Elastic Kubernetes Service(Amazon EKS)或 Amazon Elastic Container Service(Amazon ECS)来部署 P6e-GB200 UltraServer 和 P6-B200 实例。

P6e UltraServer 还将通过 NVIDIA NVIDA DGX Cloud 提供,这是一个采用 NVIDIA 完整人工智能软件堆栈的完全托管式环境。使用 NVIDIA DGX Cloud,您可以获得 NVIDIA 的最新优化技术、基准测试配方和技术专业知识。

了解详情

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量。