宣布推出 Amazon EC2 Trn3 UltraServers,实现更快、更低成本的生成式人工智能训练

发布于: 2025年12月2日

AWS 宣布正式推出 Amazon Elastic Compute Cloud (Amazon EC2) Trn3 UltraServers,该功能由我们的第四代人工智能芯片 Trainium3 提供支持,该芯片是我们首款 3nm AWS 人工智能芯片,专门构建用于为下一代代理、推理和视频生成应用程序提供最佳的令牌经济效益。

每个 AWS Trainium3 芯片提供 2.52 千万亿次浮点 (PFLOP) 的 FP8 计算,与 Trainium2 相比,内存容量增加 1.5 倍,带宽增加 1.7 倍,达到 144 GB 的 HBM3e 内存,以及 4.9 TB/s 的内存带宽。Trainium3 专为密集型和专家并行工作负载而设计,具有高级数据类型(MXFP8 和 MXFP4),并改善了实时、多模态和推理任务的内存与计算平衡。

Trn3 UltraServers 最多可以纵向扩展到 144 个 Trainium3 芯片(总计 362 个 FP8 PFLOP),并且在 EC2 UltraClusters 3.0 中可用,可以扩展到数十万个芯片。完全配置的 Trn3 UltraServer 可提供高达 20.7 TB 的 HBM3e 和 706TB/s 的聚合内存带宽。下一代 Trn3 UltraServer 采用 NeuronSwitch-v1,这是一种全互连结构,与 Trn2 UltraServer 相比,其芯片间互连带宽提升了两倍。

与 Trn2 UltraServers 相比,Trn3 的性能可提高多达 4.4 倍,内存带宽可提高 3.9 倍,能效比可提高 4 倍,为训练和服务前沿模型提供最佳的性价比,包括强化学习、组合专家 (MoE)、推理和长上下文架构。在 Amazon Bedrock 上,Trainium3 是我们速度最快的加速器,其性能比 Trainium2 快 3 倍,在每位用户的延迟相似的情况下,每兆瓦的输出令牌数量比 Trainium2 高 5 倍以。

新的 Trn3 UltraServers 专为专为人工智能研究人员而构建,并由 AWS Neuron SDK 提供支持,以解锁突破性的性能。通过原生 PyTorch 集成,开发人员无需更改任何一行模型代码即可进行训练和部署。对于人工智能性能工程师,我们已提供对 Trainium3 的更深入访问权限,以使其可以微调性能、自定义内核,并进一步推动模型。由于创新需要开放的环境才能蓬勃发展,我们致力于通过开源工具和资源与开发人员联系。