跳至主要内容

Amazon EC2

Amazon EC2 P5 实例

适用于深度学习和 HPC 应用程序的基于 GPU 的高性能实例

为什么选择 Amazon EC2 P5 实例?

Amazon Elastic Compute Cloud(Amazon EC2)P5 实例由 NVIDIA H100 Tensor Core GPU 提供支持,P5e 和 P5en 实例由 NVIDIA H200 Tensor Core GPU 提供支持,可在 Amazon EC2 中为深度学习(DL)和高性能计算(HPC)应用程序提供高性能。与上一代基于 GPU 的 EC2 实例相比,这些实例可帮助您将问题解决时间缩短多达 4 倍,并将训练机器学习模型的成本降低高达 40%。这些实例可帮助您更快地迭代解决方案,加快上市速度。您可以使用 P5、P5e 和 P5en 实例来训练和部署复杂的大语言模型(LLM)和扩散模型,这些模型将为生成式人工智能应用程序提供支持。这些应用程序包括问题解答、代码生成、视频和图像生成、语音识别。您还可以使用这些实例在药物发现、地震分析、天气预报和金融建模等方面大规模部署 HPC 应用程序。

为了实现这些性能改进和成本节约,与上一代基于 GPU 的实例相比,P5 和 P5e 实例搭配 NVIDIA H100 和 H200 Tensor Core GPU,CPU 性能提高了 2 倍,系统内存提高了 2 倍,本地存储空间增加了 4 倍。P5en 实例将 NVIDIA H200 Tensor Core GPU 与高性能 Intel Sapphire Rapids CPU 配对,在 CPU 和 GPU 之间启用 Gen5 PCIe。与 P5e 和 P5 实例相比,P5en 实例提供的 CPU 和 GPU 之间的带宽高达 4 倍,网络延迟更低,从而提高了分布式训练性能。P5 和 P5e 实例支持使用第二代 Elastic Fabric Adapter(EFA)提供高达 3,200 Gbps 的网络连接。与使用上一代 EFA 和 Nitro 的 P5 相比,P5en 采用 Nitro v5 和第三代 EFA,在延迟方面改善了 35%。这有助于提高分布式训练工作负载的集体通信性能,如深度学习、生成式人工智能、实时数据处理和高性能计算(HPC)应用程序。为了以低延迟提供大规模计算,Amazon EC2 UltraClusters 中部署了这些实例,可以纵向扩展到 20,000 个与 PB 级非阻塞网络互连的 H100 或 H200 GPU。EC2 UltraClusters 中的 P5、P5e 和 P5en 实例可提供高达每秒 20 百万兆级的聚合计算能力,性能相当于一台超级计算机。

Amazon EC2 P5 实例

优势

P5、P5e 和 P5en 实例可以大规模训练大型生成式人工智能模型,其性能可达上一代基于 GPU 的 EC2 实例的 4 倍之多。

P5、P5e 和 P5en 实例将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您以更快的速度进行迭代,加快上市速度。

与上一代基于 GPU 的 EC2 实例相比,P5、P5e 和 P5en 实例在 DL 训练和 HPC 基础设施成本上最高可节省 40%。

P5、P5e 和 P5en 实例提供高达 3200 Gbps 的 EFA 网络连接。这些实例部署在 EC2 UltraClusters 中,提供每秒 20 百万兆级的聚合计算能力。

功能

P5 实例提供多达 8 个 NVIDIA H100 GPU,每个实例总共提供高达 640GB 的 HBM3 GPU 内存。P5e 和 P5en 实例提供多达 8 个 NVIDIA H200 GPU,每个实例总共提供高达 1128 GB 的 HBM3e GPU 内存。两种实例均支持高达 900 GB/s 的 NVSwitch GPU 互连(每个实例中总共为 3.6TB/s 的二分段带宽),因此每个 GPU 可以在单跳延迟的情况下与同一个实例中的每个 GPU 通信。

NVIDIA H100 和 H200 GPU 采用了转换器引擎,能够以智能方式管理并动态地在 FP8 和 16 位计算之间进行选择。与上一代 A100 GPU 相比,此功能有助于在 LLM 上提供更快的 DL 训练加速。对于 HPC 工作负载,与 A100 GPU 相比,NVIDIA H100 和 H200 GPU 具有新的 DPX 指令,可以进一步加速动态编程算法。

P5、P5e 和 P5en 实例可提供高达 3200 Gbps 的 EFA 网络连接。EFA 还结合了 NVIDIA GPUDirect RDMA,可在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。

P5、P5e 和 P5en 实例支持适用于 Lustre 的 Amazon FSx 文件系统,因此您能够以大规模 DL 和 HPC 工作负载所需的数百 GB/s 吞吐量和数百万 IOPS 访问数据。每个实例还支持高达 30TB 的本地 NVMe SSD 存储,从而对大型数据集进行快速访问。您还可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限且经济实惠的存储。

客户评价

以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。

Anthropic

在 Anthropic,我们正在努力构建可靠、可解释和可操纵的 AI 系统。虽然当今的大型通用人工智能系统可以带来巨大的好处,但它们也是不可预测的、不可靠的和不透明的。我们的目标是解决这些问题,并部署人们认为有用的系统。我们组织是世界上为数不多的在 DL 研究领域建立基础模型的组织之一。这些模型非常复杂,为了开发和训练这些先进模型,我们需要将它们高效地分布在大型 GPU 集群中。目前,我们正在广泛使用 Amazon EC2 P4 实例,我们对 P5 实例的推出感到振奋。我们期望,与 P4d 实例相比,它们能够提供可观的性价比优势,并且能达到构建下一代 LLM 和相关产品所需的大规模的需要。

Anthropic 联合创始人 Tom Brown
Missing alt text value

AON

在 AON,我们一直在革新保险公司应对复杂计算挑战的方式。精算预测需要更多模拟来建模复杂的金融风险和担保,但互不关联的遗留系统和容易出错的手动任务限制了精细、严谨的分析。对我们而言,Amazon EC2 P5 实例带来了颠覆性的改变。过去需要几天才能运行的机器学习模型和经济预测,现在只需几个小时就能完成。能够使用单个 H100 GPU 实例(p5.4xlarge)意味着我们不仅可以节省时间,还可以优化计算资源。得益于这项突破性技术,我们的客户在风险管理和产品定价方面获得了前所未有的洞见。

AON 生命解决方案全球主管 Van Beach

Missing alt text value

Cohere

Cohere 率先帮助所有企业利用语言人工智能的力量,以自然和直观的方式探索、生成、搜索和处理信息,可在最适合每个客户的数据环境中跨多个云平台进行部署。搭载 NVIDIA H100 的 Amazon EC2 P5 实例将凭借其强大算力,结合 Cohere 先进的大语言模型(LLM)和生成式人工智能能力,助力企业更快地实现业务创新、增长和扩展。

Cohere 首席执行官 Aidan Gomez
Missing alt text value

Hugging Face

作为 ML 领域发展最快的开源社区,我们现在在我们的平台上为 NLP、计算机视觉、生物学、强化学习等提供了超过 150000 个预训练模型和 25000 个数据集。借助 LLM 和生成式人工智能的重大进步,我们正在与 AWS 合作,为构建面向未来的开源模型做出贡献。我们期待通过 Amazon SageMaker,在带有 EFA 的 UltraClusters 中大规模使用 Amazon EC2 P5 实例,以加快交付适合所有人的新基础人工智能模型。

Hugging Face 首席技术官兼联合创始人 Julien Chaumond
Missing alt text value

产品详细信息

Instance Size
vCPUs
Instance Memory
GPU
GPU memory
Network Bandwidth (Gbps)
GPUDirect RDMA
GPU Peer to Peer
Instance Storage (TB)
EBS Bandwidth (Gbps)
p5.4xlarge

16

256 GiB

1 H100

80 GB

HBM3

100 Gbps EFA

否*

不适用*

3.84 NVMe SSD

10

p5.48xlarge
192

2 TiB

8 H100
640 GB
HBM3
3200 Gbps EFA
900 GB/s NVSwitch
8 个 3.84 NVMe SSD
80
p5e.48xlarge
192

2 TiB

8 H200
1128GB
HBM3e
3200 Gbps EFA
900 GB/s NVSwitch
8 个 3.84 NVMe SSD
80
p5en.48xlarge
192

2 TiB

8 H200
1128 GB HBM3e
3200 Gbps EFA
900 GB/s NVSwitch
8 个 3.84 NVMe SSD
100

*P5.4xlarge 不支持 GPUDirect RDMA

机器学习使用案例入门

SageMaker 是一项完全托管的服务,用于构建、训练和部署机器学习模型。借助 SageMaker HyperPod,您可以更轻松地扩展到数十个、数百个或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置和管理弹性训练集群的问题。

DLAMI 可以为机器学习从业人员和研究人员提供基础设施和各种工具,以加快在云中进行任意规模的深度学习的速度。 Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像,可以让您跳过从头构建和优化环境的复杂流程,从而简化自定义机器学习环境的部署。

如果您更愿意通过容器编排服务管理自己的容器化工作负载,则可以使用 Amazon EKSAmazon ECS 部署 P5、P5e 和 P5en 实例。

HPC 使用案例入门

P5、P5e 和 P5en 实例是运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载的理想平台。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。所有三种实例类型都支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速构建和扩展分布式 HPC 应用程序。

了解详情