Amazon EC2 P4 实例

云端机器学习训练和 HPC 应用程序的高性能

为什么选择 Amazon EC2 P4 实例?

Amazon Elastic Compute Cloud(Amazon EC2)P4d 实例为云端机器学习(ML)训练和高性能计算(HPC)应用提供了高性能。P4d 实例由 NVIDIA A100 Tensor Core GPU 提供支持,并提供业界领先的高吞吐量和低延迟网络。这些实例支持 400 Gbps 的实例联网。P4d 实例在训练 ML 模型时可产生多达 60% 的成本节约,包括与上一代的 P3 和 P3dn 实例相比深度学习模型的性能平均提高 2.5 倍。

P4d 实例部署在名为 Amazon EC2 UltraCluster 的超大规模集群中,后者包含云中高性能的计算、网络和存储。每个 EC2 UltraCluster 都是世界上最强大的超级计算机之一,可帮助您运行其最复杂的多节点 ML 训练和分布式 HPC 工作负载。您可以根据 ML 或 HPC 项目的需求,在 EC2 UltraCluster 中轻松地从几个扩展到数千个 NVIDIA A100 GPU。

研究人员、数据科学家和开发人员可以使用 P4d 实例针对自然语言处理、对象检测和分类以及建议引擎等各种使用案例训练 ML 模型。他们还可以使用该实例来运行药物发现、地震分析和财务建模之类的 HPC 应用程序。与本地系统不同,您可以虚拟访问不受限制的计算和存储容量、根据业务需要扩展基础设施,并在几分钟内加速多节点 ML 训练工作或紧密耦合的分布式 HPC 应用程序,而不会产生任何设置或维护成本。

宣布推出新的 Amazon EC2 P4d 实例

优势

功能

客户评价

以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。

  • Toyota Research Institute (TRI)

    Toyota Research Institute(TRI)创建于 2015 年,致力于为丰田开发自动驾驶、机器人和其他人类扩增技术。

    在 TRI,我们致力于建设一个人人都能自由行动的未来。上一代 P3 实例曾帮助我们将训练 ML 模型的时间从几天缩短到几小时,我们希望利用 P4d 实例,在增加了 GPU 内存并采用更高效的浮点格式后,让我们的机器学习团队能够以更快的速度训练更复杂的模型。

    Mike Garrison,TRI 基础设施工程技术主管
  • TRI-AD

    在 TRI-AD,我们致力于打造每个人都能自由移动的未来,重点探索利用自适应驾驶和智能城市减少与车辆相关的伤亡。通过使用 Amazon EC2 P4d 实例,我们在不修改现有代码的条件下,能够将对象识别的训练时间相比上一代 GPU 减少 40%。

    Junya Inada,TRI-AD 自动驾驶(识别)总监
  • TRI-AD

    通过使用 Amazon EC2 P4d 实例,我们能够相比上一代 GPU 实例快速地减少训练成本,因此我们能够减少从事模型训练工作的团队数量。P4d 的联网改进让我们能够高效地扩展到数十个实例,从而更加灵活地在测试车内或模拟环境中快速优化、重新训练和部署模型,以进一步完成测试。

    Jack Yan,TRI-AD 基础设施工程高级总监
  • GE Healthcare

    GE Healthcare 是领先的全球医疗技术和数字解决方案创新者。GE Healthcare 让临床医生能够通过 Edison 智能平台支持的智能设备、数据分析、应用程序和服务更快地做出更加明智的决定。

    在 GE Healthcare,我们为临床医生提供工具以帮助他们聚合数据、对这些数据应用 AI 和分析,并获得能够改善患者疗效、提高效率和消除错误的观点。我们的医学成像设备生成大量的数据,需要我们的数据科学家进行处理。使用以前的 GPU 集群,需要几天时间来训练复杂的 AI 模型,例如渐进式 GAN,来模拟和查看结果。使用新 P4d 实例后,处理时间从几天缩短到了几小时。我们发现各种图像大小的模型训练速度都提高了两到三倍,同时获得了更高的性能,批次大小增加,生产效率提高,并且模型开发周期更短。

    Karley Yoder,GM Healthcare 人工智能副总裁兼总经理
  • HEAVY.AI

    HEAVY.AI 是加速分析领域的开拓者。HEAVY.AI 平台用于商业和政府领域,以从主流分析工具限制之外的数据获得见解。

    在 HEAVY.AI,我们致力于打造数据科学和分析融合的未来,以打破和融合数据孤岛。客户利用可能包括地点和时间的海量数据勾画全图,不仅描述发生了什么事件,还通过空间时间数据的精细可视化获得事件的时间和地点。我们的技术既能看到整片森林,也能放大到每一棵树。使用 Amazon EC2 P4d 实例后,我们的平台部署成本与使用上一代 GPU 实例时相比显著降低,因此我们能够更具成本效益地扩展大型数据集。A100 的联网改进提高了我们扩展到数十亿行数据时的效率,使客户能够更快地得出见解。

    Ray Falcione,HEAVY.AI 美国公共领域副总裁
  • Zenotech Ltd.

    Zenotech Ltd 正在通过交付按需许可模型的 HPC 云结合利用 GPU 获得的极限性能优势重新定义在线工程。

    在 Zenotech,我们正在开发合适的工具,以使设计人员创造更高效且对环境友好的产品。我们涉足多个行业,我们的工具利用大规模的模拟带来更丰富的产品性能洞察。利用 AWS P4d 实例,我们运行模拟的速度比使用上一代 GPU 快了 3.5 倍。这种速度提高显著地缩短了解析时间,使客户的设计能够更快地进入市场,或者完成比以前更逼真的模拟。

    Jamil Appa,Zenotech 总监兼联合创始人
  • Aon

    Aon 是一家领先的全球专业服务机构,提供各种风险、退休和健康解决方案。Aon PathWise 是一种基于 GPU 的可扩展 HPC 风险管理解决方案,保险公司和分保公司、银行以及养老基金可利用它来应对今天的主要挑战,例如对冲政策测试、监管和经济学预测以及预算。 

    在 PathWise Solutions Group LLC,我们的产品让保险公司、分保公司和养老基金能够接触到新一代技术,以更快地解决当今的主要保险挑战,例如机器学习、对冲政策测试、监管和经济学预测,以及新产品开发和定价。通过使用 Amazon EC2 P4d 实例,我们相比于上一代 GPU 实例能够惊人地提高单精度和双精度计算的速度,首次让客户完成新范围的计算和预测。速度很重要,得益于 AWS 提供的新实例,我们能够继续为客户带来有意义的价值和最新的技术。

    Van Beach,Aon Pathwise 战略与技术集团生命解决方案全球负责人
  • Rad AI

    汇集了放射学和 AI 专家的 Rad AI 打造能使放射科医生生产效率最大化的产品,最终扩大医疗服务的范围,并改善患者疗效。 阅读案例研究以了解更多信息

    在 Rad AI,我们的使命是为每个人增加就医机会并提高医疗质量。Rad AI 的关注点是医疗成像工作流,致力于节省放射科医生的时间,减少疲劳,提高准确度。我们使用 AI 来自动化放射学工作流程,并帮助简化放射学报告。借助新的 EC2 P4d 实例,我们可以实现更快的推理,并且与上一代 P3 实例相比训练模型的速度提高 2.4 倍,并且准确度更高。这样能够实现更快、更准确的诊断,并获得我们在美国各地提供的高质量放射学服务。

    Doktor Gurson,Rad AI 联合创始人

产品详细信息

实例大小 vCPU 实例内存 (GiB) GPU – A100 GPU 内存 网络带宽(Gbps) GPUDirect RDMA GPU 对等 实例存储 (GB) EBS 带宽 (Gbps) 按需价格/小时 1 年期预留实例的有效小时* 3 年期预留实例的有效小时*
p4d.24xlarge 96 1152 8 320 GB
HBM2
400 ENA 和 EFA 600 GB/s NVSwitch 8 个 1000 NVMe SSD 19 32.77 USD 19.22 USD 11.57 USD
p4de.24xlarge(预览版) 96 1152 8 640 GB
HBM2e
400 ENA 和 EFA 600 GB/s NVSwitch 8 个 1000 NVMe SSD 19 40.96 USD 24.01 USD 14.46 USD
* – 所示价格适用于美国东部(弗吉尼亚州北部)AWS 区域的 Linux/Unix,价格已四舍五入至最接近的美分。如需了解完整的定价详情,请参阅 Amazon EC2 定价

P4d 实例现已在美国东部(弗吉尼亚州北部和俄亥俄州)、美国西部(俄勒冈州)、亚太地区(首尔和东京)和欧洲地区(法兰克福和爱尔兰)区域推出。P4de 实例已在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域推出。

客户可以将 P4d 和 P4de 实例作为按需型实例、预留实例、竞价型实例、专属主机或作为实惠配套的一部分购买。

开始使用适用于 ML 的 P4d 实例

开始使用适用于 HPC 的 P4d 实例

P4d 实例非常适合用于运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。P4d 实例支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速地构建和扩展分布式 HPC 应用程序。

了解详情