为什么选择 Amazon EC2 UltraServers?
Amazon Elastic Compute Cloud(Amazon EC2)UltraServers 非常适合寻求为万亿参数规模的模型提供最高的人工智能训练和推理性能的客户。UltraServers 使用专用的高带宽、低延迟加速器互连,以连接多个 EC2 实例,让您能够在 EC2 实例间利用紧密耦合的加速器网格,并访问比独立 EC2 实例更多的计算和内存。
EC2 UltraServers 非常适合需要比独立 EC2 实例更多的内存和更多的内存带宽的大型模型。UltraServer 设计使用实例内加速器连接,将多个实例连接到一个节点,从而解锁新功能。在推理方面,UltraServers 有助于提供业界领先的响应时间,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。EC2 UltraServers 支持 EFA 网络连接,在 EC2 UltraClusters 中部署时,可在单个 PB 级无阻塞网络上通过数以万计的加速器实现横向扩展分布式培训。通过为训练和推理提供更高的性能,UltraServers 可加快您的上市时间,并帮助您交付由性能最强的下一代基础模型驱动的实时应用程序。
优势
以超过万亿的参数规模训练和部署模型
UltraServers 通过将一组更大的加速器与高带宽、低延迟的互连相连,提供比独立 EC2 实例更多的计算和内存,从而实现对具有数千亿到数万亿个参数的模型进行高效训练和推理。
减少实时应用程序的推理延迟
UltraServers 支持对超大型模型进行实时推理,这些模型需要大量的内存和内存带宽资源,超出单个 EC2 实例所能提供的资源。
将模型并行性扩展到更多加速器,缩短训练时间
UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而帮助您缩短训练时间。
功能
专用、高带宽和低延迟的加速器互连
您可以在 UltraServer 中启动实例,并在这些实例中利用专用、高带宽和低延迟的加速器互连。UltraServers 支持访问与专用互连连接的大量加速器,在单个节点上提供比独立 EC2 实例更多的计算和内存。
高性能网络
EC2 UltraClusters 中部署的 EC2 UltraServers 与 PB 级 EFA 网络连接互连,以提高分布式训练工作负载的性能。
高性能存储
您可以将 EC2 UltraServers 与高性能存储解决方案(如适用于 Lustre 的 Amazon FSx)结合使用,后者是基于最常用的高性能并行文件系统构建的完全托管的共享存储。您还可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限且经济实惠的存储。
基于 Nitro System 构建
EC2 UltraServers 基于 AWS Nitro System 构建,这是一套丰富的构建块集合,可将许多传统虚拟化功能分载到专用硬件和软件上。Nitro 实现了高性能、高可用性和高安全性,同时减少了虚拟化开销。
支持的实例
Trn2 实例
Trn2 实例由 AWS Trainium2 芯片提供支持,采用 Trn2 UltraServer 配置(预览版已上线),让您能够扩展至多达 64 个 Trainium2 芯片,这些芯片与 AWS AI 芯片专用的高带宽、低延迟互连 NeuronLink 连接。Trn2 UltraServers 在 Amazon EC2 中为生成式人工智能训练和推理提供突破性的性能。
P6e-GB200 实例
在 NVIDIA GB200 NVL72 的加速下,UltraServer 配置中的 P6e-GB200 实例允许您在一个 NVLink 域内访问多达 72 个 Blackwell GPU,进而利用 360 千万亿次浮点运算的 FP8 计算(无稀疏性)、13.4 TB 的总高带宽内存(HBM3e)和高达每秒 28.8 太比特的 Elastic Fabric Adapter(EFAv4)联网。P6e-GB200 实例仅在 UltraServer 中可用,范围从 8 个 GPU 到 72 个 GPU。
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量。