Amazon EC2 P4d 实例

云端机器学习训练和 HPC 应用程序的最高性能

Amazon EC2 P4d 实例为云端机器学习 (ML) 训练和高性能计算 (HPC) 应用程序提供了最高性能。P4d 实例由最新的 NVIDIA A100 Tensor Core GPU 提供支持,并提供业界领先的高吞吐量和低延迟网络。 这些实例开创了在云中支持 400 Gbps 实例联网的先河。P4d 实例在训练 ML 模型时可产生多达 60% 的成本节约,包括与上一代的 P3 和 P3dn 实例相比深度学习模型的性能平均提高 2.5 倍。

Amazon EC2 P4d 实例部署在名为 EC2 UltraCluster 的超大规模集群中,后者包含云中最高性能的计算、网络和存储。每个 EC2 UltraCluster 都是世界上最强大的超级计算机之一,让客户能够运行其最复杂的多节点 ML 训练和分布式 HPC 工作负载。客户可以根据其 ML 或 HPC 项目需要,在 EC2 UltraCluster 中轻松地从几个扩展到数千个 NVIDIA A100 GPU。

研究人员、数据科学家和开发人员可以利用 P4d 实例针对各种使用案例训练 ML 模型,例如自然语言处理、对象检测和分类以及建议引擎,并运行药物发现、地震分析和财务建模之类的 HPC 应用程序。与本地系统不同,客户可以虚拟访问不受限制的计算和存储容量、根据业务需要扩展其基础设施,并在几分钟内加速多节点 ML 训练工作或紧密耦合的分布式 HPC 应用程序,而不会产生任何设置或维护成本。

宣布推出新的 Amazon EC2 P4d 实例 (2:00)

产生问题或需要关于 EC2 UltraCluster 的帮助?

请求帮助 »

使用 EC2 P4d UltraCluster 的大规模 ML 训练和 HPC

P4d 实例的 EC2 UltraCluster 将高性能计算、联网和存储能力融合到云中最强大的超级计算机之一。P4d 实例的每个 EC2 UltraCluster 都包含超过 4000 个最新的 NVIDIA A100 GPU、PB 级非阻塞联网基础设施、以及通过 FSx for Lustre 实现的高吞吐能力、低延迟存储。任何 ML 开发人员、研究人员或数据科学家都能通过随用随付的使用模型运行其最复杂的多节点 ML 训练和 HPC 工作负载,从而在 EC2 UltraCluster 中加速 P4d 实例以获得超级计算机级性能。

如有疑问或需要协助使用 EC2 UltraCluster,则请求帮助

EC2_UltraClusters_HIW

仅在部分区域可用。如需获得在哪些支持中可支持 EC2 UltraCluster 的信息以及任何其他信息,请联系我们

优势

将 ML 训练时间从几天缩短为几分钟

使用最新一代 NVIDIA A100 Tensor Core GPU 后,每个 Amazon EC2 P4d 实例与上一代 P3 实例相比深度学习性能平均提高 2.5 倍。在日常工作中,P4d 实例的 EC2 UltraCluster 能够让开发人员、数据科学家和研究人员运行其最复杂的 ML 和 HPC 工作负载,无需任何预付费用或长期合约即可获得超算级性能。使用 P4d 实例减少的训练时间能够提高生产效率,使开发人员专注于将 ML 智能融入业务应用程序的核心使命。

运行最复杂的多节点 ML 训练并达到高效率

开发人员可以利用 P4d 实例的 EC2 UltraCluster 无缝地扩大到数千个 GPU 的规模。支持 400 Gbps 实例联网、Elastic Fabric Adapter (EFA) 和 GPUDirect RDMA 技术的高吞吐量、低延迟联网,有助于使用扩展/分布式技术快速地训练 ML 模型。Elastic Fabric Adapter (EFA) 可使用 NVIDIA Collective Communications Library (NCCL) 扩展到数千个 GPU,而 GPUDirect RDMA 技术能够在 P4d 实例之间实现低延迟 GPU 至 GPU 通信。

更低的 ML 训练和 HPC 基础设施成本

Amazon EC2 P4d 实例训练 ML 模型的成本与 P3 实例相比降低多达 60%。此外,P4d 实例还可作为 Spot 实例购买。Spot 实例利用了未使用的 EC2 实例容量,可以大大降低 Amazon EC2 的成本,和按需实例价格相比有高达 90% 的折扣。由于使用 P4d 实例的 ML 训练成本更低,因此可以重新分配预算以在业务应用程序中获得更多 ML 智能。

轻松地开始使用并扩展 AWS 服务

通过深度学习 AMI 和深度学习容器可在几分钟内轻松地部署 P4d 深度学习环境,因为它们包含所需的深度学习框架库和工具。您还可以轻松地向这些镜像添加自己的库和工具。P4d 实例支持热门 ML 框架,例如 TensorFlow、PyTorch 和 MXNet。此外,用于 ML、管理和编排的多数 AWS 服务(例如,Amazon SageMaker、Amazon Elastic Kubernetes Service (EKS)、Amazon Elastic Container Service (ECS)、AWS Batch 和 AWS ParallelCluster)都支持 Amazon EC2 P4d 实例。

功能

由 NVIDIA A100 Tensor Core GPU 提供支持

NVIDIA A100 Tensor Core GPU 大规模地为 ML 和高性能计算 (HPC) 带来前所未有的加速效果。NVIDIA A100 的第三代 Tensor Core 可加速每种精密工作负载,同时缩短获得见解和投放市场所需的时间。每个 A100 GPU 的计算性能达到上一代 V100 GPU 的 2.5 倍以上,配有 40 GB 高性能 HBM2 GPU 内存。NVIDIA A100 GPU 利用 NVSwitch GPU 互连吞吐量,因此每个 GPU 可以在相同的 600GB/s 双向吞吐量和单跳延迟的情况下与相同实例中的每个其他 GPU 通信。

高性能联网

P4d 实例提供 400 Gbps 联网性能以帮助客户更好地扩展其分布式工作负载,例如利用高吞吐量联网功能在 P4d 实例之间以及在 P4d 实例与 Amazon S3 和 FSx for Lustre 之类的存储服务之间更高效地进行多节点训练。Elastic Fabric Adapter (EFA) 是 AWS 为帮助将 ML 和 HPC 应用程序扩展到数千个 GPU 而设计的自定义网络接口。为了进一步减少延迟,EFA 结合 NVIDIA GPUDirect RDMA 以在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。

高吞吐量、低延迟存储

客户可以使用 FSx for Lustre 访问 PB 级高吞吐量、低延迟存储,或使用 Amazon S3 以 400 Gbps 的速度访问几乎无限的成本效益型存储。对于需要快速访问大数据集的工作负载,每个 P4d 实例还包括 8TB 基于 NVMe 的 SSD 存储,读取吞吐量达到 16 GB/sec。

依托 AWS Nitro 系统构建

P4d 实例依托 AWS Nitro 系统构建,后者是丰富的构建块集合,可将许多传统虚拟化功能卸载到专用硬件和软件中,以提供高性能、高可用性和高安全性,同时还可降低虚拟化开销。

客户案例

mli_600x400_TRI

Toyota Research Institute (TRI) 创建于 2015 年,致力于为丰田开发自动驾驶、机器人和其他人类扩增技术。

“在 TRI,我们致力于打造每个人都能自由移动的未来,”TRI 基础设施工程部技术主管 Mike Garrison 说。“上一代 P3 实例曾帮助我们将训练机器学习模型的时间从几天缩短到几小时,我们希望利用 P4d 实例,在增加了 GPU 内存并采用更高效的浮点格式后,让我们的机器学习团队能够以更快的速度训练更复杂的模型。”

TRI-AD_logo_1200 200415_1

“在 TRI-AD,我们致力于打造每个人都能自由移动的未来,重点探索利用自适应驾驶和智能城市减少与车辆相关的伤亡。通过使用 Amazon EC2 P4d 实例,我们在不修改现有代码的条件下,能够将对象识别的训练时间相比上一代 GPU 减少 40%。”TRI-AD 自动驾驶(识别)总监 Junya Inada 说。

TRI-AD 基础设施工程部高级总监 Jack Yan 说:“通过使用 Amazon EC2 P4d 实例,我们能够相比上一代 GPU 实例快速地减少训练成本,因此我们能够减少从事模型训练工作的团队数量。P4d 的联网改进让我们能够高效地扩展到数十个实例,从而更加灵活地在测试车内或模拟环境中快速优化、重新训练和部署模型,以进一步完成测试。”

ge_healthcare

GE Healthcare 是领先的全球医疗技术和数字解决方案创新者。GE Healthcare 让临床医生能够通过 Edison 智能平台支持的智能设备、数据分析、应用程序和服务更快地做出更加明智的决定。

“在 GE Healthcare,我们为临床医生提供工具以帮助他们聚合数据、对这些数据应用 AI 和分析,并获得能够改善患者结果、提高效率和消除错误的观点,” 人工智能副总裁兼总经理 Karley Yoder 说。“我们的医学成像设备生成大量的数据,需要我们的数据科学家进行处理。使用以前的 GPU 集群,需要几天时间来训练复杂的 AI 模型,例如渐进式 GAN,来模拟和查看结果。使用新 P4d 实例后,处理时间从几天缩短到了几小时。我们发现各种图像大小的模型训练速度都提高了两到三倍,同时获得了更高的性能,批次大小增加,生产效率提高,并且模型开发周期更短。”

0_banner

OmniSci 是加速分析领域的开拓者。OmniSci 平台用于商业和政府领域,以从主流分析工具限制之外的数据获得见解。

“在 Omnisci,我们致力于打造数据科学和分析收敛于分项和融合数据仓的未来。客户利用可能包括地点和时间的海量数据勾画全图,不仅描述发生了什么事件,还通过空间时间数据的精细可视化获得事件的时间和地点。我们的技术既能看到整片森林,也能放大到每一棵树,”Omnisci 美国公共领域副总裁 Ray Falcione 说。“使用 Amaon EC2 P4d 实例后,我们的平台部署成本与使用上一代 GPU 实例时相比显著降低,因此我们能够更具成本效益地扩展大型数据集。A100 的联网改进提高了我们扩展到数十亿行数据时的效率,使客户能够更快地得出见解。”

z-logo

Zenotech Ltd 正在通过交付按需许可模型的 HPC 云结合利用 GPU 获得的极限性能优势重新定义在线工程。

“在 Zenotech,我们正在开发合适的工具,以使设计人员创造更高效且对环境友好的产品。我们涉足多个行业,我们的工具利用大规模的模拟带来更丰富的产品性能洞察。”Zenotech 总监 Jamil Appa 说。“利用 AWS P4d 实例,我们运行模拟的速度比使用上一代 GPU 快了 3.5 倍。这种速度提高显著地缩短了解析时间,使客户的设计能够更快地进入市场,或者完成比以前更逼真的模拟。”

aon-200x100

Aon 是一家领先的全球专业服务机构,提供各种风险、退休和健康解决方案。Aon PathWise 是一种基于 GPU 的可扩展 HPC 风险管理解决方案,保险公司和分保公司、银行以及养老基金可利用它来应对今天的主要挑战,例如对冲政策测试、监管和经济学预测以及预算。 

“在 PathWise Solutions Group LLC,我们的产品让保险公司、分保公司和养老基金能够接触到新一代技术,以更快地解决当今的主要保险挑战,例如机器学习、对冲政策测试、监管和经济学预测,以及新产品开发和定价,”PathWise Solutions Group 总裁兼首席执行官 Peter Phillips 说。 “通过使用 Amazon EC2 P4d 实例,我们相比于上一代 GPU 实例能够惊人地提高单精度和双精度计算的速度,首次让客户完成新范围的计算和预测。速度很重要,”Phillips 说,“得益于 AWS 提供的新实例,我们能够继续为客户带来有意义的价值和最新的技术。”

rad_ai

汇集了放射学和 AI 专家的 Rad AI 打造能使放射科医生生产效率最大化的产品,最终扩大医疗服务的范围,并改善患者结果。

“在 Rad AI,我们的使命是为每个人增加就医机会并提高医疗质量。Rad AI 的关注点是医疗成像工作流,致力于节省放射科医生的时间,减少疲劳,提高准确度,”Rad AI 联合创始人 Doktor Gurson 说。“我们使用 AI 来自动化放射学工作流程,并帮助简化放射学报告。借助新的 EC2 P4d 实例,我们可以实现更快的推理,并且与上一代 P3 实例相比训练模型的速度提高 2.4 倍,并且准确度更高。这样能够实现更快、更准确的诊断,并获得我们在美国各地提供的高质量放射学服务。”

阅读案例研究以了解更多信息 »

产品详细信息

实例大小 vCPU 实例内存 (GB) GPU – A100 网络带宽 GPUDirect RDMA GPU 对等 本地实例存储 EBS 带宽 按需价格/小时 1 年期预留实例的有效小时* 3 年期预留实例的有效小时*
p4d.24xlarge 96 1152 8 400 Gbps ENA 和 EFA 600 GB/s NVSwitch 8 x 1 TB NVMe SSD 19Gbps 32.77 USD 19.22 USD 11.57 USD
* – 所示价格适用于美国东部(弗吉尼亚北部)AWS 区域的 Linux/Unix,价格已四舍五入至最接近的美分。如需了解完整的定价详情,请参阅 Amazon EC2 定价页面。

Amazon EC2 P4d 实例已在美国东部(弗吉尼亚北部和俄亥俄)、美国西部(俄勒冈)、欧洲(爱尔兰和法兰克福)和亚太地区(东京和首尔)区域推出。客户能够以按需实例、预留实例、Spot 实例、专属主机或 Savings Plan 的一部分购买 P4d 实例。

开始使用 Amazon EC2 P4d 实例进行机器学习

使用 Amazon SageMaker

Amazon SageMaker 是一种完全托管的服务,用于构建、训练和部署 ML 模型。将其与 Amazon EC2 P4d 实例配合使用,客户可以轻松扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置集群和数据管道。

使用 AWS Deep Learning AMI 或 Deep Learning Containers

AWS Deep Learning AMIs (DLAMI) 可以为 ML 从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。 AWS Deep Learning Containers 是预先安装了深度学习框架的 Docker 镜像,可以让您跳过从头构建和优化环境的复杂流程,让您轻松快速部署自定义 ML 环境。

使用 Amazon Elastic Kubernetes Service (EKS) 或 Elastic Container Service (ECS)

首选通过容器编排服务管理其容器化工作负载的客户可以使用 Amazon EKSECS 部署 Amazon EC2 P4d 实例。

开始使用 Amazon EC2 P4d 实例进行高性能计算

Amazon EC2 P4d 实例是运行工程模拟、计算金融学、地震分析、分子建模、基因组学、渲染以及其他基于 GPU 的高性能计算 (HPC) 工作负载的理想平台。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。P4d 实例支持 Elastic Fabric Adapter (EFA),该服务启用使用消息传递接口 (MPI) 的 HPC 应用程序扩展到数千个 GPU。通过 AWS Batch 和 AWS ParallelCluster,HPC 开发人员可以快速地构建和扩展分布式 HPC 应用程序。

了解更多 »

博客文章

 
作者:Jeff Barr 
2020 年 11 月 2 日
 
作者:Amr Ragab 
2020 年 11 月 2 日

其他资源

P4d 实例的 EC2 UltraCluster (1:59)
Amazon EC2 P4d 与 P3:自然语言处理 (0:34)
Amazon EC2 P4d 与 P3:语音转文本 (0:33)
Amazon EC2 P4d 与 P3:图像分类 (0:37)

开始使用 AWS

注册 AWS 账户

注册 AWS 账户

立即享受 AWS 免费套餐

通过简单教程进行学习

通过 10 分钟教程来进行学习

通过简单教程进行探讨和学习。

开始在控制台中使用 EC2 构建

开始在控制台中构建

按照可帮助您启动 AWS 项目的分步指南开始构建。