为什么选择 Amazon EC2 P4 实例?
Amazon Elastic Compute Cloud(Amazon EC2)P4d 实例为云端机器学习(ML)训练和高性能计算(HPC)应用提供了高性能。P4d 实例由 NVIDIA A100 Tensor Core GPU 提供支持,并提供业界领先的高吞吐量和低延迟网络。这些实例支持 400 Gbps 的实例联网。P4d 实例在训练 ML 模型时可产生多达 60% 的成本节约,包括与上一代的 P3 和 P3dn 实例相比深度学习模型的性能平均提高 2.5 倍。
P4d 实例部署在名为 Amazon EC2 UltraCluster 的超大规模集群中,后者包含云中高性能的计算、网络和存储。每个 EC2 UltraCluster 都是世界上最强大的超级计算机之一,可帮助您运行其最复杂的多节点 ML 训练和分布式 HPC 工作负载。您可以根据 ML 或 HPC 项目的需求,在 EC2 UltraCluster 中轻松地从几个扩展到数千个 NVIDIA A100 GPU。
研究人员、数据科学家和开发人员可以使用 P4d 实例针对自然语言处理、对象检测和分类以及建议引擎等各种使用案例训练 ML 模型。他们还可以使用该实例来运行药物发现、地震分析和财务建模之类的 HPC 应用程序。与本地系统不同,您可以虚拟访问不受限制的计算和存储容量、根据业务需要扩展基础设施,并在几分钟内加速多节点 ML 训练工作或紧密耦合的分布式 HPC 应用程序,而不会产生任何设置或维护成本。
宣布推出新的 Amazon EC2 P4d 实例
优势
功能
客户评价
以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。
-
Toyota Research Institute (TRI)
Toyota Research Institute(TRI)创建于 2015 年,致力于为丰田开发自动驾驶、机器人和其他人类扩增技术。
在 TRI,我们致力于建设一个人人都能自由行动的未来。上一代 P3 实例曾帮助我们将训练 ML 模型的时间从几天缩短到几小时,我们希望利用 P4d 实例,在增加了 GPU 内存并采用更高效的浮点格式后,让我们的机器学习团队能够以更快的速度训练更复杂的模型。
Mike Garrison,TRI 基础设施工程技术主管 -
TRI-AD
在 TRI-AD,我们致力于打造每个人都能自由移动的未来,重点探索利用自适应驾驶和智能城市减少与车辆相关的伤亡。通过使用 Amazon EC2 P4d 实例,我们在不修改现有代码的条件下,能够将对象识别的训练时间相比上一代 GPU 减少 40%。
Junya Inada,TRI-AD 自动驾驶(识别)总监 -
TRI-AD
通过使用 Amazon EC2 P4d 实例,我们能够相比上一代 GPU 实例快速地减少训练成本,因此我们能够减少从事模型训练工作的团队数量。P4d 的联网改进让我们能够高效地扩展到数十个实例,从而更加灵活地在测试车内或模拟环境中快速优化、重新训练和部署模型,以进一步完成测试。
Jack Yan,TRI-AD 基础设施工程高级总监 -
GE Healthcare
GE Healthcare 是领先的全球医疗技术和数字解决方案创新者。GE Healthcare 让临床医生能够通过 Edison 智能平台支持的智能设备、数据分析、应用程序和服务更快地做出更加明智的决定。
在 GE Healthcare,我们为临床医生提供工具以帮助他们聚合数据、对这些数据应用 AI 和分析,并获得能够改善患者疗效、提高效率和消除错误的观点。我们的医学成像设备生成大量的数据,需要我们的数据科学家进行处理。使用以前的 GPU 集群,需要几天时间来训练复杂的 AI 模型,例如渐进式 GAN,来模拟和查看结果。使用新 P4d 实例后,处理时间从几天缩短到了几小时。我们发现各种图像大小的模型训练速度都提高了两到三倍,同时获得了更高的性能,批次大小增加,生产效率提高,并且模型开发周期更短。
Karley Yoder,GM Healthcare 人工智能副总裁兼总经理 -
HEAVY.AI
HEAVY.AI 是加速分析领域的开拓者。HEAVY.AI 平台用于商业和政府领域,以从主流分析工具限制之外的数据获得见解。
在 HEAVY.AI,我们致力于打造数据科学和分析融合的未来,以打破和融合数据孤岛。客户利用可能包括地点和时间的海量数据勾画全图,不仅描述发生了什么事件,还通过空间时间数据的精细可视化获得事件的时间和地点。我们的技术既能看到整片森林,也能放大到每一棵树。使用 Amazon EC2 P4d 实例后,我们的平台部署成本与使用上一代 GPU 实例时相比显著降低,因此我们能够更具成本效益地扩展大型数据集。A100 的联网改进提高了我们扩展到数十亿行数据时的效率,使客户能够更快地得出见解。
Ray Falcione,HEAVY.AI 美国公共领域副总裁 -
Zenotech Ltd.
Zenotech Ltd 正在通过交付按需许可模型的 HPC 云结合利用 GPU 获得的极限性能优势重新定义在线工程。
在 Zenotech,我们正在开发合适的工具,以使设计人员创造更高效且对环境友好的产品。我们涉足多个行业,我们的工具利用大规模的模拟带来更丰富的产品性能洞察。利用 AWS P4d 实例,我们运行模拟的速度比使用上一代 GPU 快了 3.5 倍。这种速度提高显著地缩短了解析时间,使客户的设计能够更快地进入市场,或者完成比以前更逼真的模拟。
Jamil Appa,Zenotech 总监兼联合创始人 -
Aon
Aon 是一家领先的全球专业服务机构,提供各种风险、退休和健康解决方案。Aon PathWise 是一种基于 GPU 的可扩展 HPC 风险管理解决方案,保险公司和分保公司、银行以及养老基金可利用它来应对今天的主要挑战,例如对冲政策测试、监管和经济学预测以及预算。
在 PathWise Solutions Group LLC,我们的产品让保险公司、分保公司和养老基金能够接触到新一代技术,以更快地解决当今的主要保险挑战,例如机器学习、对冲政策测试、监管和经济学预测,以及新产品开发和定价。通过使用 Amazon EC2 P4d 实例,我们相比于上一代 GPU 实例能够惊人地提高单精度和双精度计算的速度,首次让客户完成新范围的计算和预测。速度很重要,得益于 AWS 提供的新实例,我们能够继续为客户带来有意义的价值和最新的技术。
Van Beach,Aon Pathwise 战略与技术集团生命解决方案全球负责人 -
Rad AI
汇集了放射学和 AI 专家的 Rad AI 打造能使放射科医生生产效率最大化的产品,最终扩大医疗服务的范围,并改善患者疗效。 阅读案例研究以了解更多信息
在 Rad AI,我们的使命是为每个人增加就医机会并提高医疗质量。Rad AI 的关注点是医疗成像工作流,致力于节省放射科医生的时间,减少疲劳,提高准确度。我们使用 AI 来自动化放射学工作流程,并帮助简化放射学报告。借助新的 EC2 P4d 实例,我们可以实现更快的推理,并且与上一代 P3 实例相比训练模型的速度提高 2.4 倍,并且准确度更高。这样能够实现更快、更准确的诊断,并获得我们在美国各地提供的高质量放射学服务。
Doktor Gurson,Rad AI 联合创始人
产品详细信息
实例大小 | vCPU | 实例内存 (GiB) | GPU – A100 | GPU 内存 | 网络带宽(Gbps) | GPUDirect RDMA | GPU 对等 | 实例存储 (GB) | EBS 带宽 (Gbps) | 按需价格/小时 | 1 年期预留实例的有效小时* | 3 年期预留实例的有效小时* |
---|---|---|---|---|---|---|---|---|---|---|---|---|
p4d.24xlarge | 96 | 1152 | 8 | 320 GB HBM2 |
400 ENA 和 EFA | 是 | 600 GB/s NVSwitch | 8 个 1000 NVMe SSD | 19 | 32.77 USD | 19.22 USD | 11.57 USD |
p4de.24xlarge(预览版) | 96 | 1152 | 8 | 640 GB HBM2e |
400 ENA 和 EFA | 是 | 600 GB/s NVSwitch | 8 个 1000 NVMe SSD | 19 | 40.96 USD | 24.01 USD | 14.46 USD |
P4d 实例现已在美国东部(弗吉尼亚州北部和俄亥俄州)、美国西部(俄勒冈州)、亚太地区(首尔和东京)和欧洲地区(法兰克福和爱尔兰)区域推出。P4de 实例已在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域推出。
客户可以将 P4d 和 P4de 实例作为按需型实例、预留实例、竞价型实例、专属主机或作为实惠配套的一部分购买。
开始使用适用于 ML 的 P4d 实例
开始使用适用于 HPC 的 P4d 实例
P4d 实例非常适合用于运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。P4d 实例支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速地构建和扩展分布式 HPC 应用程序。