跳至主要内容

Amazon EC2

Amazon EC2 P4 实例

云端机器学习训练和 HPC 应用程序的高性能

为什么选择 Amazon EC2 P4 实例?

Amazon Elastic Compute Cloud(Amazon EC2)P4d 实例为云端机器学习(ML)训练和高性能计算(HPC)应用提供了高性能。P4d 实例由 NVIDIA A100 Tensor Core GPU 提供支持,并提供业界领先的高吞吐量和低延迟网络。这些实例支持 400 Gbps 的实例联网。P4d 实例在训练 ML 模型时可产生多达 60% 的成本节约,包括与上一代的 P3 和 P3dn 实例相比深度学习模型的性能平均提高 2.5 倍。

P4d 实例部署在名为 Amazon EC2 UltraClusters 的集群中,这些集群包括高性能计算、联网和云端存储。每个 EC2 UltraCluster 都是世界上最强大的超级计算机之一,可帮助您运行其最复杂的多节点 ML 训练和分布式 HPC 工作负载。您可以根据 ML 或 HPC 项目的需求,在 EC2 UltraCluster 中轻松地从几个扩展到数千个 NVIDIA A100 GPU。

研究人员、数据科学家和开发人员可以使用 P4d 实例针对自然语言处理、对象检测和分类以及建议引擎等各种使用案例训练 ML 模型。他们还可以使用该实例来运行药物发现、地震分析和财务建模之类的 HPC 应用程序。与本地系统不同,您可以虚拟访问不受限制的计算和存储容量、根据业务需要扩展基础设施,并在几分钟内加速多节点 ML 训练工作或紧密耦合的分布式 HPC 应用程序,而不会产生任何设置或维护成本。

宣布推出新的 Amazon EC2 P4d 实例

优势

    使用最新一代 NVIDIA A100 Tensor Core GPU 后,每个 P4d 实例与上一代 P3 实例相比深度学习性能平均提高 2.5 倍。在日常工作中,P4d 实例的 EC2 UltraCluster 可帮助开发人员、数据科学家和研究人员运行其最复杂的 ML 和 HPC 工作负载,无需任何预付费用或长期合约即可获得超算级性能。使用 P4d 实例减少的训练时间能够提高生产效率,帮助开发人员专注于将 ML 智能融入业务应用程序的核心使命。

    开发人员可以利用 P4d 实例的 EC2 UltraCluster 无缝地扩大到数千个 GPU 的规模。支持 400 Gbps 实例联网、Elastic Fabric Adapter(EFA)和 GPUDirect RDMA 技术的高吞吐量、低延迟联网,有助于使用扩展/分布式技术快速地训练 ML 模型。EFA 可使用 NVIDIA Collective Communications Library(NCCL)扩展到数千个 GPU,而 GPUDirect RDMA 技术能够在 P4d 实例之间实现低延迟 GPU 至 GPU 通信。

    P4d 实例训练 ML 模型的成本与 P3 实例相比降低多达 60%。此外,P4d 实例还可作为竞价型实例购买。竞价型实例利用了未使用的 EC2 实例容量,可以大大降低 EC2 的成本,和按需实例价格相比有高达 90% 的折扣。由于使用 P4d 实例的 ML 训练成本更低,因此可以重新分配预算以在业务应用程序中获得更多 ML 智能。

    通过 AWS Deep Learning AMI(DLAMI)和 Amazon Deep Learning 可在几分钟内轻松地部署 P4d 深度学习环境,因为它们包含所需的深度学习框架库和工具。您还可以轻松地向这些镜像添加更多自己的库和工具。P4d 实例支持热门 ML 框架,例如 TensorFlow、PyTorch 和 MXNet。此外,用于 ML、管理和编排的多数 AWS 服务(例如,Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)、AWS Batch 和 AWS ParallelCluster)都支持 P4d 实例。

功能

    NVIDIA A100 Tensor Core GPU 大规模地为 ML 和 HPC 带来前所未有的加速效果。NVIDIA A100 的第三代 Tensor Core 可加速各种精密工作负载,同时缩短获得洞察和投放市场所需的时间。每个 A100 GPU 的计算性能达到上一代 V100 GPU 的 2.5 倍以上,配有 40GB HBM2(P4d 实例)或 80GB HBM2e(P4de 实例)高性能 GPU 内存。高性能 GPU 内存尤其适合利用由高精度数据组成的大型数据集进行训练的工作负载。NVIDIA A100 GPU 使用 NVSwitch GPU 互连吞吐量,因此每个 GPU 可以在相同的 600GB/s 双向吞吐量和单跳延迟的情况下与相同实例中的每个其他 GPU 通信。

    P4d 实例提供 400 Gbps 联网性能以帮助客户更好地扩展其分布式工作负载,例如利用高吞吐量联网功能在 P4d 实例之间以及在 P4d 实例与 Amazon Simple Storage Service(Amazon S3)和 FSx for Lustre 之类的存储服务之间更高效地进行多节点训练。EFA 是 AWS 为帮助将 ML 和 HPC 应用程序扩展到数千个 GPU 而设计的自定义网络接口。为了进一步减少延迟,EFA 结合 NVIDIA GPUDirect RDMA 以在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。

    使用 FSx for Lustre 访问 PB 级高吞吐量、低延迟存储,或使用 Amazon S3 以 400 Gbps 的速度访问几乎无限的成本效益型存储。对于需要快速访问大数据集的工作负载,每个 P4d 实例还包括 8TB 基于 NVMe 的 SSD 存储,读取吞吐量达到 16 GB/sec。

    P4d 实例依托 AWS Nitro System 构建,后者是丰富的构建块集合,可将许多传统虚拟化功能卸载到专用硬件和软件中,以提供高性能、高可用性和高安全性,同时还可降低虚拟化开销。

客户评价

以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。

Toyota Research Institute (TRI)

 

Toyota Research Institute(TRI)创建于 2015 年,致力于为丰田开发自动驾驶、机器人和其他人类扩增技术。 
 
“在TRI,我们正在努力建设一个每个人都可以自由出行的未来。上一代 P3 实例帮助我们将训练机器学习模型的时间从几天缩短到几小时,我们期待使用 p4d 实例,因为额外的 GPU 内存和更高效的浮动格式将使我们的机器学习团队能够以更快的速度使用更复杂的模型进行训练。“
Mike Garrison,TRI 基础设施工程技术主管
Missing alt text value

三重广告

 

“在TRI-AD,我们正在努力建设一个每个人都可以自由出行和探索的未来,重点是使用自适应驾驶和智慧城市减少车辆伤害和死亡人数。通过使用 Amazon EC2 P4d 实例,与上一代 GPU 实例相比,我们在不修改现有代码的情况下将对象识别的训练时间缩短了 40%。“
 
Junya Inada,TRI-AD 自动驾驶(识别)总监
Missing alt text value

三重广告

 

“通过使用 Amazon EC2 P4d 实例,与上一代 GPU 实例相比,我们能够立即降低训练成本,从而使我们能够增加从事模型训练的团队数量。P4d 的网络改进使我们能够高效地扩展到数十个实例,这使我们能够非常灵活地在测试车或仿真环境中快速优化、重新训练和部署模型以进行进一步测试。“
 
Jack Yan,TRI-AD 基础设施工程高级总监
Missing alt text value

GE Healthcare

 

GE Healthcare 是领先的全球医疗技术和数字解决方案创新者。GE Healthcare 让临床医生能够通过 Edison 智能平台支持的智能设备、数据分析、应用程序和服务更快地做出更加明智的决定。 
 
“在 GE Healthcare,我们为临床医生提供工具,帮助他们汇总数据,将人工智能和分析应用于这些数据,并发现可改善患者预后、提高效率和消除错误的见解。我们的医学成像设备生成大量的数据,需要我们的数据科学家进行处理。使用以前的 GPU 集群,需要几天时间来训练复杂的 AI 模型,例如渐进式 GAN,来模拟和查看结果。使用新 P4d 实例后,处理时间从几天缩短到了几小时。我们发现训练不同图像大小的模型的速度提高了两到三倍,同时通过增加批次大小实现了更好的性能,并通过更快的模型开发周期提高了生产率。“
 
Karley Yoder,GM Healthcare 人工智能副总裁兼总经理
Missing alt text value

HEAVY.AI

 

HEAVY.AI 是加速分析领域的开拓者。HEAVY.AI 平台用于企业和政府,在数据中寻找超越主流分析工具限制的见解。
 
“在 HEAVY.AI,我们正在努力建设一个数据科学和分析融合的未来,以打破和融合数据孤岛。客户利用可能包括地点和时间的海量数据勾画全图,不仅描述发生了什么事件,还通过空间时间数据的精细可视化获得事件的时间和地点。我们的技术既能看到整片森林,也能放大到每一棵树。使用 Amazon EC2 P4d 实例后,我们的平台部署成本与使用上一代 GPU 实例时相比显著降低,因此我们能够更具成本效益地扩展大型数据集。A100 的网络改进提高了我们扩展到数十亿行数据的效率,并使我们的客户能够更快地收集见解。“
 
Ray Falcione,HEAVY.AI 美国公共领域副总裁
Missing alt text value

Zenotech 有限公司

 

Zenotech Ltd 正在通过交付按需许可模型的 HPC 云结合利用 GPU 获得的极限性能优势重新定义在线工程。 
 
“在Zenotech,我们正在开发工具,使设计师能够创造出更高效、更环保的产品。我们涉足多个行业,我们的工具利用大规模的模拟带来更丰富的产品性能洞察。利用 AWS P4d 实例,我们运行模拟的速度比使用上一代 GPU 快了 3.5 倍。这种加速显著缩短了我们解决问题的时间,使我们的客户能够比以前更快地将设计推向市场或进行更高保真度的仿真。“
 
Jamil Appa,Zenotech 总监兼联合创始人
Missing alt text value

Aon

 

Aon 是一家领先的全球专业服务机构,提供各种风险、退休和健康解决方案。Aon PathWise 是一种基于 GPU 的可扩展 HPC 风险管理解决方案,保险公司和分保公司、银行以及养老基金可利用它来应对今天的主要挑战,例如对冲政策测试、监管和经济学预测以及预算。 
 
“在PathWise Solutions Group LLC,我们的产品允许保险公司、再保险公司和养老基金获得下一代技术,以快速解决当今的关键保险挑战,例如机器学习、对冲策略测试、监管和财务报告、业务规划和经济预测以及新产品开发和定价。通过使用 Amazon EC2 P4d 实例,我们相比于上一代 GPU 实例能够惊人地提高单精度和双精度计算的速度,首次让客户完成新范围的计算和预测。速度至关重要,得益于 AWS 的新实例,我们将继续为客户提供有意义的价值和最新技术。“
 
Van Beach,Aon Pathwise 战略与技术集团生命解决方案全球负责人
Missing alt text value

Rad AI

 

Rad AI由放射学和人工智能专家组成,开发的产品可最大限度地提高放射科医生的工作效率,最终使医疗保健更广泛地获得并改善患者预后。  阅读案例研究以了解更多信息
 
“在Rad AI,我们的使命是增加每个人获得医疗保健的机会和质量。Rad AI 的关注点是医疗成像工作流,致力于节省放射科医生的时间,减少疲劳,提高准确度。我们使用 AI 来自动化放射学工作流程,并帮助简化放射学报告。借助新的 EC2 P4d 实例,我们可以实现更快的推理,并且与上一代 P3 实例相比训练模型的速度提高 2.4 倍,并且准确度更高。这样可以更快、更准确地进行诊断,并更容易获得我们在美国各地的客户提供的高质量放射学服务。“
 
Doktor Gurson,Rad AI 联合创始人
Missing alt text value

产品详细信息

实例大小
vCPU
实例内存 (GiB)
GPU – A100
GPU 内存
网络带宽(Gbps)
GPUDirect RDMA
GPU 对等
实例存储 (GB)
EBS 带宽(Gbps)
p4d.24xlarge
96
1152
8
320 GB
HBM2
400 ENA 和 EFA
600 GB/s NVSwitch
8 个 1000 NVMe SSD
19
p4de.24xlarge
96
1152
8
640 GB
HBM2e
400 ENA 和 EFA
600 GB/s NVSwitch
8 个 1000 NVMe SSD
19

开始使用适用于 ML 的 P4d 实例

    亚马逊 SageMaker 是一项完全托管的服务,用于构建、训练和部署机器学习模型。将其与 P4d 实例配合使用,客户可以轻松扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置集群和数据管道。

    DLAMI 为机器学习从业者和研究人员提供基础设施和工具,以加速任何规模的云端深度学习。 深度学习容器是预装有 DL 框架的 Docker 镜像,可让您跳过从头开始构建和优化环境的复杂过程,从而更轻松地快速部署自定义 ML 环境。

开始使用适用于 HPC 的 P4d 实例

P4d 实例非常适合用于运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。P4d 实例支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速构建和扩展分布式 HPC 应用程序。

了解更多