宣布推出 Amazon EC2 Trn3 UltraServers，实现更快、更低成本的生成式人工智能训练

发布于: 2025年12月2日

AWS 宣布正式推出 Amazon Elastic Compute Cloud (Amazon EC2) Trn3 UltraServers，该功能由我们的第四代人工智能芯片 Trainium3 提供支持，该芯片是我们首款 3nm AWS 人工智能芯片，专门构建用于为下一代代理、推理和视频生成应用程序提供最佳的令牌经济效益。

每个 AWS Trainium3 芯片提供 2.52 千万亿次浮点 (PFLOP) 的 FP8 计算，与 Trainium2 相比，内存容量增加 1.5 倍，带宽增加 1.7 倍，达到 144 GB 的 HBM3e 内存，以及 4.9 TB/s 的内存带宽。Trainium3 专为密集型和专家并行工作负载而设计，具有高级数据类型（MXFP8 和 MXFP4），并改善了实时、多模态和推理任务的内存与计算平衡。

Trn3 UltraServers 最多可以纵向扩展到 144 个 Trainium3 芯片（总计 362 个 FP8 PFLOP），并且在 EC2 UltraClusters 3.0 中可用，可以扩展到数十万个芯片。完全配置的 Trn3 UltraServer 可提供高达 20.7 TB 的 HBM3e 和 706TB/s 的聚合内存带宽。下一代 Trn3 UltraServer 采用 NeuronSwitch-v1，这是一种全互连结构，与 Trn2 UltraServer 相比，其芯片间互连带宽提升了两倍。

与 Trn2 UltraServers 相比，Trn3 的性能可提高多达 4.4 倍，内存带宽可提高 3.9 倍，能效比可提高 4 倍，为训练和服务前沿模型提供最佳的性价比，包括强化学习、组合专家 (MoE)、推理和长上下文架构。在 Amazon Bedrock 上，Trainium3 是我们速度最快的加速器，其性能比 Trainium2 快 3 倍，在每位用户的延迟相似的情况下，每兆瓦的输出令牌数量比 Trainium2 高 5 倍以。

新的 Trn3 UltraServers 专为专为人工智能研究人员而构建，并由 AWS Neuron SDK 提供支持，以解锁突破性的性能。通过原生 PyTorch 集成，开发人员无需更改任何一行模型代码即可进行训练和部署。对于人工智能性能工程师，我们已提供对 Trainium3 的更深入访问权限，以使其可以微调性能、自定义内核，并进一步推动模型。由于创新需要开放的环境才能蓬勃发展，我们致力于通过开源工具和资源与开发人员联系。

宣布推出 Amazon EC2 Trn3 UltraServers，实现更快、更低成本的生成式人工智能训练

了解

资源

开发人员

帮助