跳至主要内容

Amazon EC2

AWS EC2 Trn3 实例

专门构建,旨在为下一代代理、推理和视频生成应用程序提供最佳的令牌经济效益。

为何选择 Amazon EC2 Trn3 UltraServers?

当今的前沿模型正转向支持超过 100 万个令牌的长上下文的万亿参数多模态模型,这需要下一代可扩展的高性能计算架构。Amazon EC2 Trn3 UltraServers 和 AWS Neuron 开发人员堆栈专为满足这些需求而构建,提供大规模训练和服务下一代代理和推理系统所需的性能、成本效益和能效。 

Amazon EC2 Trn3 UltraServers 由 Trainium3 提供支持,这款专门构建的芯片是我们的第四代人工智能芯片,同时也是首款 3 纳米 AWS 人工智能芯片,可为下一代代理、推理和视频生成应用程序提供最佳的令牌经济效益。

与 Trn2 UltraServers 相比,Trn3 UltraServer 的性能可提高多达 4.4 倍,内存带宽可提高 3.9 倍,能效比可提高 4 倍以上,为训练和服务前沿模型提供最佳的性价比,包括强化学习、组合专家(MoE)、推理和长上下文架构。Trn3 UltraServers 延续 Trainium 系列在性价比和可扩展性方面的领先优势,助您更快完成训练,并以更高的性能和更优的成本效益部署下一代基础模型。

Trn3 UltraServers 最多可扩展至 144 个 Trainium3 芯片(最高 362 FP8 PFLOP),并可在 EC2 UltraClusters 3.0 中扩展至数十万个芯片。 下一代 Trn3 UltraServer 搭载 NeuronSwitch-v1,这是使用 NeuronLink-v4 的全互连架构,每个芯片的带宽为 2TB/s。

借助对 PyTorch、JAX、Hugging Face Optimum Neuron 和其他库的原生支持,以及完全兼容 Amazon SageMaker、EKS、ECS、AWS Batch 和 ParallelCluster,您可轻松入门

Missing alt text value

优势

相比 Trn2 UltraServers,Trn3 UltraServers 搭载 AWS Trainium3 芯片,性能提升高达 4.4 倍,内存带宽提升 3.9 倍,效能功耗比提升 4 倍。在 Amazon Bedrock 上,Trainium3 是最快的加速器,其性能比 Trainium2 提升高达 3 倍。这种显著的性能提升同样体现在大规模部署的 GPT-OSS 等模型上,其吞吐量较基于 Trainium2 的实例有显著提高,同时保持较低的每用户延迟。

每个 Trn3 UltraServer 最多可扩展至 144 个 Trainium3 芯片,新机架的芯片密度较 Trn2 提升逾 2 倍,从而提升每个机架的计算能力并提高数据中心效率。Trn3 UltraServers 基于 AWS Nitro System 和 Elastic Fabric Adapter(EFA)构建,采用非阻塞、多 PB 级规模的 EC2 UltraClusters 3.0 进行部署,允许您扩展至数十万个 Trainium 芯片,用于分布式训练和服务。

Trn3 实例延续 Trainium 在性能方面的领先地位,提供比传统人工智能加速器更佳的性价比,让您可以降低每个令牌的成本和每次试验的成本。在 GPT-OSS 和前沿规模的 LLM 等工作负载上实现更高吞吐量,可降低推理成本,并缩短要求最严苛模型的训练时间。

AWS Trainium3 芯片是我们的首款 3 纳米人工智能芯片,经过优化,可为下一代代理、推理和视频生成应用程序提供最佳的令牌经济效益。Trn3 UltraServers 的能效比 Trn2 UltraServers 高出 4 倍以上,且在 Amazon Bedrock 上运行。  在实际部署中,Trn3 每兆瓦的输出令牌数是 Trn2 UltraServer 的 5 倍以上,同时保持相近的每用户延迟,助您在不牺牲性能的前提下实现可持续发展目标。

Trn3 UltraServers 由 AWS Neuron 提供支持,后者是 AWS Trainium 和 AWS Inferentia 的开发人员堆栈,因此您无需更改代码即可运行现有的 PyTorch 和 JAX 代码。

TNeuron 支持 vLLM、Hugging Face Optimum Neuron、PyTorch Lightning、TorchTitan 等常见机器学习库,并集成 Amazon SageMaker、Amazon SageMaker HyperPod、Amazon EKS、Amazon ECS、AWS Batch 及 AWS ParallelCluster 等服务。

功能

每个 AWS Trainium3 芯片可提供 2.52 FP8 PFLOP 的计算,而 Trn3 UltraServers 最多可扩展至 144 个 Trainium3 芯片,在单个 UltraServer 中提供多达 362 FP8 PFLOP 的总 FP8 计算。这种高密度计算封装专为训练和服务前沿规模的转换器、混合专家模型和长上下文架构而设计。

AWS Trainium3 较上一代产品在内存容量和带宽方面均有提升,每个芯片提供 144GB 的 HBM3e 及 4.9 TB/s 的内存带宽。Trn3 UltraServer 可提供高达 20.7 TB 的 HBM3e 和 706 TB/s 的总内存带宽,支持更大的批量处理规模、扩展的上下文窗口以及更高的超大型多模态、视频和推理模型利用率。

Trn3 UltraServers 推出 NeuronSwitch-v1 全互连架构,其芯片间互连带宽较 Trn2 UltraServers 提升一倍,从而增强模型并行效率,并降低基于 MoE 和张量并行训练的通信开销。 Trn3 UltraServers 支持每个 UltraServer 最多 144 个芯片,是 Trn2 UltraServers 的 2 倍以上。对于大规模分布式训练,我们通过单个无阻塞、PB 级规模的网络,在带有数十万个 Trainium3 芯片的 UltraCluster 3.0 中部署 Trn3 UltraServers。

Trainium3 支持 FP32、BF16、MXFP8 和 MXFP4 精度模式,可在密集型和专家级并行工作负载之间实现精度与效率的平衡。内置的集体通信引擎可加速同步过程,并降低大型转换器模型、扩散模型和混合专家模型的训练开销,从而提升大规模端到端训练的吞吐量。

Trn3 UltraServers 使用 AWS Neuron SDK 进行编程,该 SDK 为 AWS Trainium 和 AWS Inferentia 提供编译器、运行时环境、训练和推理库以及开发人员工具。Neuron Kernel 接口(NKI)提供对 Trainium 指令集、内存和执行调度的低级访问,因此性能工程师可以构建自定义内核,并将性能提升至超越标准框架的水平。Neuron Explorer 提供统一的分析和调试环境,可跟踪从 PyTorch 和 JAX 代码到硬件操作的执行情况,并为分片策略、内核优化及大规模分布式运行提供切实可行的见解。

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量。