- Amazon EC2›
- 实例类型›
- P5 实例
为什么选择 Amazon EC2 P5 实例?
Amazon Elastic Compute Cloud(Amazon EC2)P5 实例由 NVIDIA H100 Tensor Core GPU 提供支持,P5e 和 P5en 实例由 NVIDIA H200 Tensor Core GPU 提供支持,可在 Amazon EC2 中为深度学习(DL)和高性能计算(HPC)应用程序提供高性能。与上一代基于 GPU 的 EC2 实例相比,这些实例可帮助您将问题解决时间缩短多达 4 倍,并将训练机器学习模型的成本降低高达 40%。这些实例可帮助您更快地迭代解决方案,加快上市速度。您可以使用 P5、P5e 和 P5en 实例来训练和部署复杂的大语言模型(LLM)和扩散模型,这些模型将为生成式人工智能应用程序提供支持。这些应用程序包括问题解答、代码生成、视频和图像生成、语音识别。您还可以使用这些实例在药物发现、地震分析、天气预报和金融建模等方面大规模部署 HPC 应用程序。
为了实现这些性能改进和成本节约,与上一代基于 GPU 的实例相比,P5 和 P5e 实例搭配 NVIDIA H100 和 H200 Tensor Core GPU,CPU 性能提高了 2 倍,系统内存提高了 2 倍,本地存储空间增加了 4 倍。P5en 实例将 NVIDIA H200 Tensor Core GPU 与高性能 Intel Sapphire Rapids CPU 配对,在 CPU 和 GPU 之间启用 Gen5 PCIe。与 P5e 和 P5 实例相比,P5en 实例提供的 CPU 和 GPU 之间的带宽高达 4 倍,网络延迟更低,从而提高了分布式训练性能。P5 和 P5e 实例支持使用第二代 Elastic Fabric Adapter(EFA)提供高达 3,200 Gbps 的网络连接。与使用上一代 EFA 和 Nitro 的 P5 相比,P5en 采用 Nitro v5 和第三代 EFA,在延迟方面改善了 35%。这有助于提高分布式训练工作负载的集体通信性能,如深度学习、生成式人工智能、实时数据处理和高性能计算(HPC)应用程序。为了以低延迟提供大规模计算,Amazon EC2 UltraClusters 中部署了这些实例,可以纵向扩展到 20,000 个与 PB 级非阻塞网络互连的 H100 或 H200 GPU。EC2 UltraClusters 中的 P5、P5e 和 P5en 实例可提供高达每秒 20 百万兆级的聚合计算能力,性能相当于一台超级计算机。
Amazon EC2 P5 实例
优势
P5、P5e 和 P5en 实例可以大规模训练大型生成式人工智能模型,其性能可达上一代基于 GPU 的 EC2 实例的 4 倍之多。
P5、P5e 和 P5en 实例将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您以更快的速度进行迭代,加快上市速度。
与上一代基于 GPU 的 EC2 实例相比,P5、P5e 和 P5en 实例在 DL 训练和 HPC 基础设施成本上最高可节省 40%。
P5、P5e 和 P5en 实例提供高达 3200 Gbps 的 EFA 网络连接。这些实例部署在 EC2 UltraClusters 中,提供每秒 20 百万兆级的聚合计算能力。
功能
P5 实例提供多达 8 个 NVIDIA H100 GPU,每个实例总共提供高达 640GB 的 HBM3 GPU 内存。P5e 和 P5en 实例提供多达 8 个 NVIDIA H200 GPU,每个实例总共提供高达 1128 GB 的 HBM3e GPU 内存。两种实例均支持高达 900 GB/s 的 NVSwitch GPU 互连(每个实例中总共为 3.6TB/s 的二分段带宽),因此每个 GPU 可以在单跳延迟的情况下与同一个实例中的每个 GPU 通信。
NVIDIA H100 和 H200 GPU 采用了转换器引擎,能够以智能方式管理并动态地在 FP8 和 16 位计算之间进行选择。与上一代 A100 GPU 相比,此功能有助于在 LLM 上提供更快的 DL 训练加速。对于 HPC 工作负载,与 A100 GPU 相比,NVIDIA H100 和 H200 GPU 具有新的 DPX 指令,可以进一步加速动态编程算法。
P5、P5e 和 P5en 实例可提供高达 3200 Gbps 的 EFA 网络连接。EFA 还结合了 NVIDIA GPUDirect RDMA,可在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。
P5、P5e 和 P5en 实例支持适用于 Lustre 的 Amazon FSx 文件系统,因此您能够以大规模 DL 和 HPC 工作负载所需的数百 GB/s 吞吐量和数百万 IOPS 访问数据。每个实例还支持高达 30TB 的本地 NVMe SSD 存储,从而对大型数据集进行快速访问。您还可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限且经济实惠的存储。
客户评价
以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。
Anthropic
在 Anthropic,我们正在努力构建可靠、可解释和可操纵的 AI 系统。虽然当今的大型通用人工智能系统可以带来巨大的好处,但它们也是不可预测的、不可靠的和不透明的。我们的目标是解决这些问题,并部署人们认为有用的系统。我们组织是世界上为数不多的在 DL 研究领域建立基础模型的组织之一。这些模型非常复杂,为了开发和训练这些先进模型,我们需要将它们高效地分布在大型 GPU 集群中。目前,我们正在广泛使用 Amazon EC2 P4 实例,我们对 P5 实例的推出感到振奋。我们期望,与 P4d 实例相比,它们能够提供可观的性价比优势,并且能达到构建下一代 LLM 和相关产品所需的大规模的需要。
AON
在 AON,我们一直在革新保险公司应对复杂计算挑战的方式。精算预测需要更多模拟来建模复杂的金融风险和担保,但互不关联的遗留系统和容易出错的手动任务限制了精细、严谨的分析。对我们而言,Amazon EC2 P5 实例带来了颠覆性的改变。过去需要几天才能运行的机器学习模型和经济预测,现在只需几个小时就能完成。能够使用单个 H100 GPU 实例(p5.4xlarge)意味着我们不仅可以节省时间,还可以优化计算资源。得益于这项突破性技术,我们的客户在风险管理和产品定价方面获得了前所未有的洞见。
AON 生命解决方案全球主管 Van Beach
Cohere
Cohere 率先帮助所有企业利用语言人工智能的力量,以自然和直观的方式探索、生成、搜索和处理信息,可在最适合每个客户的数据环境中跨多个云平台进行部署。搭载 NVIDIA H100 的 Amazon EC2 P5 实例将凭借其强大算力,结合 Cohere 先进的大语言模型(LLM)和生成式人工智能能力,助力企业更快地实现业务创新、增长和扩展。
Hugging Face
作为 ML 领域发展最快的开源社区,我们现在在我们的平台上为 NLP、计算机视觉、生物学、强化学习等提供了超过 150000 个预训练模型和 25000 个数据集。借助 LLM 和生成式人工智能的重大进步,我们正在与 AWS 合作,为构建面向未来的开源模型做出贡献。我们期待通过 Amazon SageMaker,在带有 EFA 的 UltraClusters 中大规模使用 Amazon EC2 P5 实例,以加快交付适合所有人的新基础人工智能模型。
产品详细信息
|
Instance Size
|
vCPUs
|
Instance Memory
|
GPU
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (TB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p5.4xlarge
|
16 |
256 GiB |
1 H100 |
80 GB HBM3 |
100 Gbps EFA |
否* |
不适用* |
3.84 NVMe SSD |
10 |
|
p5.48xlarge
|
192
|
2 TiB |
8 H100
|
640 GB
HBM3 |
3200 Gbps EFA
|
是
|
900 GB/s NVSwitch
|
8 个 3.84 NVMe SSD
|
80
|
|
p5e.48xlarge
|
192
|
2 TiB |
8 H200
|
1128GB
HBM3e |
3200 Gbps EFA
|
是
|
900 GB/s NVSwitch
|
8 个 3.84 NVMe SSD
|
80
|
|
p5en.48xlarge
|
192
|
2 TiB |
8 H200
|
1128 GB HBM3e
|
3200 Gbps EFA
|
是
|
900 GB/s NVSwitch
|
8 个 3.84 NVMe SSD
|
100
|
*P5.4xlarge 不支持 GPUDirect RDMA
机器学习使用案例入门
SageMaker 是一项完全托管的服务,用于构建、训练和部署机器学习模型。借助 SageMaker HyperPod,您可以更轻松地扩展到数十个、数百个或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置和管理弹性训练集群的问题。
DLAMI 可以为机器学习从业人员和研究人员提供基础设施和各种工具,以加快在云中进行任意规模的深度学习的速度。 Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像,可以让您跳过从头构建和优化环境的复杂流程,从而简化自定义机器学习环境的部署。
如果您更愿意通过容器编排服务管理自己的容器化工作负载,则可以使用 Amazon EKS 或 Amazon ECS 部署 P5、P5e 和 P5en 实例。
HPC 使用案例入门
P5、P5e 和 P5en 实例是运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载的理想平台。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。所有三种实例类型都支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速构建和扩展分布式 HPC 应用程序。