为什么选择 Amazon EC2 UltraClusters?
Amazon Elastic Compute Cloud (Amazon EC2) UltraCluster 可以帮助您扩展到数千个 GPU 或专门构建的 ML AI 芯片(如 AWS Trainium),以按需访问超级计算机。它们通过简单的即用即付使用模式,使更多的机器学习 (ML)、生成式人工智能和高性能计算 (HPC) 开发人员能够获得超级计算级性能,无需任何设置或维护成本。部署在 EC2 UltraClusters 中的 Amazon EC2 实例包括 P6e-GB200、P6-B200、P5en、P5e、P5、P4d、Trn2 和 Trn1 实例。
EC2 UltraCluster 由数千个加速 EC2 实例组成,这些实例都位于给定的 AWS 可用区内,并在 PB 级无阻塞网络中使用 Elastic Fabric Adapter (EFA) 网络进行互连。EC2 UltraClusters 还提供对 Amazon FSx for Lustre 的访问,这是一种完全托管的共享存储,建立在最受欢迎的高性能并行文件系统上,可按需快速处理海量数据集,延迟为亚毫秒。EC2 UltraCluster 为分布式 ML 训练和紧密耦合的 HPC 工作负载提供横向扩展功能。
优势
更快地为分布式训练和 HPC 制定解决方案
EC2 UltraCluster 可帮助您将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您更快地进行迭代,更快地将深度学习 (DL)、生成式人工智能和 HPC 应用程序推向市场。
按需访问百万兆级超级计算机
EC2 UltraCluster 由数千个加速 EC2 实例组成,这些实例都位于给定的 AWS 可用区内,并在 PB 级无阻塞网络中使用 Elastic Fabric Adapter(EFA)网络进行互连。它们让您能够按需访问进行数百亿亿次浮点运算的加速计算能力。
灵活地优化性能和成本
越来越多的 EC2 实例支持 EC2 UltraCluster,使您可以灵活地选择正确的计算选项,以最大限度地提高性能,同时控制工作负载的成本。
功能
高性能网络
EC2 UltraCluster 中部署的 EC2 实例与 EFA 网络互连,以提高分布式训练工作负载和紧密耦合的 HPC 工作负载的性能。P6e-GB200 UltraServers 可提供高达每秒 28.8 太比特的 EFAv4 联网总速度。P6-B200 实例可提供高达每秒 3.2 TB 的 EFAv4 网络速度。Trn2 UltraServers 的 EFAv3 网络速度为每秒 12.8 TB。P5en、P5e、P5 和 Trn2 实例可提供高达 3200 Gbps 的网络带宽;Trn1 实例可提供高达 1600 Gbps 的网络带宽;P4d 实例可提供高达 400 Gbps 的 EFA 网络带宽。EFA 还与 NVIDIA GPUDirect 远程直接内存访问(RDMA)(P6-B200、P5en、P5e、P5、P4d)和 NeuronLink(Trn2、Trn1)相结合,实现了绕过操作系统的服务器之间的低延迟加速器到加速器通信。
高性能存储
EC2 UltraCluster 使用 FSx for Lustre,这是一种基于最流行的高性能并行文件系统构建的完全托管式共享存储。通过 FSx for Lustre,您可以按需快速大规模处理海量数据集,并提供亚毫秒级的延迟。FSx for Lustre 的低延迟和高吞吐量特性针对 EC2 UltraCluster 上的 DL、生成式人工智能和 HPC 工作负载进行了优化。适用于 Lustre 的 FSx 可为 EC2 UltraCluster 中的 GPU 和 AI 芯片持续提供数据,从而加速推进要求最严苛的工作负载。这些工作负载包括大型语言模型(LLM)训练、生成式人工智能推理、DL、基因组学和金融风险建模。您还可以通过 Amazon Simple Storage Service (Amazon S3) 获得几乎无限且经济实惠的存储。
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量。