AWS Trainium
Trainium3 是我们专门构建的首款 3 纳米 AWS AI 芯片,旨在为下一代代理、推理和视频生成应用程序提供最佳的令牌经济效益
为什么选择 Trainium?
AWS Trainium 是一系列专门构建的人工智能加速器(Trn1、Trn2 和 Trn3),旨在为各种生成式人工智能工作负载的训练和推理提供可扩展的性能和成本效益
AWS Trainium 系列
Trainium1
第一代 AWS Trainium 芯片为 Amazon Elastic Compute Cloud(Amazon EC2)Trn1 实例提供支持,这些实例的训练成本比同类 Amazon EC2 实例降低多达 50%。包括 Ricoh、Karakuri、SplashMusic 和 Arcee AI 在内的众多客户都已通过 Trn1 实例获得了性能和成本优势。
Trainium2
AWS Trainium2 芯片的性能是第一代 Trainium 的 4 倍。基于 Trainium2 的 Amazon EC2 Trn2 实例和 Trn2 UltraServer 专为生成式人工智能而构建,与基于 GPU 的 EC2 P5e 和 P5en 实例相比,它们的性价比提高了 30% 到 40%。Trn2 实例采用多达 16 个 Trainium2 芯片,Trn2 UltraServer 采用多达 64 个 Trainium2 芯片,这些芯片使用我们专有的芯片间互连技术 NeuronLink 进行互连。您可以使用 Trn2 实例和 UltraServer 来训练和部署要求极为严苛的模型,包括大型语言模型(LLM)、多模态模型和扩散转换器,以便构建多种下一代生成式人工智能应用程序。
Trainium3
Trn3 UltraServer 由 AWS Trainium3 提供支持,这款专门构建的芯片是我们的第四代人工智能芯片,同时也是 AWS 的首款 3 纳米人工智能芯片,可以为下一代代理、推理和视频生成应用程序提供极佳的令牌经济效益。与 Trn2 UltraServer 相比,Trn3 UltraServer 的性能可提高到多达 4.4 倍,内存带宽可增加到 3.9 倍,能源效率可提高到 4 倍以上,为训练和服务前沿模型提供了最佳的性价比,包括强化学习、组合专家(MoE)、推理和长上下文架构。
每个 AWS Trainium3 芯片都提供了 2.52 千亿次浮点(PFLOP)的 FP8 计算能力,与 Trainium2 相比,内存容量增加到 1.5 倍,带宽增大到 1.7 倍以上,HBM3e 内存容量为 144 GB,内存带宽为 4.9 TB/s。Trainium3 专为使用高级数据类型(MXFP8 和 MXFP4)的密集工作负载和专家级并行工作负载而设计,并为实时任务、多模态任务和推理任务改善了内存与计算之间的平衡。
在 Amazon Bedrock 上,Trainium3 是最快的加速器,速度高达 Trainium2 的 3 倍,能源效率是这项服务上的任何其他加速器的 3 倍。执行大规模服务测试(例如 GPT-OSS)时,在每个用户的延迟接近的情况下,Trn3 的每兆瓦输出令牌数量是 Trn2 的 5 倍以上,因此实现了更具可持续性、吞吐量更大的大规模推理。
专为开发人员而构建
基于 Trainium3 的新实例专为人工智能研究人员而构建,并由 AWS Neuron 软件开发工具包提供支持,可以解锁
突破性的性能。
通过原生 PyTorch 集成,开发人员无需更改任何代码即可进行训练和部署。对于人工智能
性能工程师,我们能够让他们更深入地访问 Trainium3,这样,开发人员就可以微调性能、
自定义内核,并进一步推动模型的发展。由于创新会推动开放性,因此我们致力于
通过开源工具和资源与我们的开发人员进行互动。
要了解详情,请访问 Amazon EC2 Trn3 实例、浏览 AWS Neuron 软件开发工具包,或者注册以便访问预览版。
优势
Trn3 UltraServer 采用纵向扩展 UltraServer 技术的最新创新,NeuronSwitch-v1 适用于
在多达 144 个 Trainium3 芯片中实现更快速的全对全连接。总而言之,单个 Trn3 UltraServer 可提供
多达 20.7 TB 的 HBM3e、706 TB/s 的内存带宽和 362 FP8 PFLOP,与 Trn2 UltraServer 相比,性能可提高到
多达 4.4 倍,能源效率可提高到 4 倍以上。Trn3 使用最新的 1T+ 参数 MoE 和
推理类型模型,以最低的成本实现了提供了最高的训练和推理性能,与基于 Trainium2 的实例相比,显著提高了大规模 GPT-OSS 服务的
吞吐量。
Trn2 UltraServer 仍然是多达 1T 参数的生成式人工智能训练和推理的一个
高性能、经济高效的选择。Trn2 实例采用多达 16 个 Trainium2 芯片,Trn2 UltraServer 采用多达
64 个 Trainium2 芯片,这些芯片使用专有的芯片间互连技术 NeuronLink 进行连接。
Trn1 实例采用多达 16 个 Trainium 芯片,可提供高达 3 FP8 PFLOP 的计算能力、512 GB 的 HBM 和 9.8 TB/s 的
内存带宽,以及高达 1.6 Tbps 的 EFA 联网能力。
专为研究和实验而构建
AWS Neuron 软件开发工具包有助于充分释放 Trn3、Trn2 和 Trn1 实例的最高性能,以便让您专注于构建和部署模型,并缩短产品上市时间。AWS Neuron 与 PyTorch Jax 以及 Hugging Face、vLLM、PyTorch Lightning 等基本库进行原生集成。它可以为分布式训练和推理优化开箱即用的模型,同时为分析和调试提供深入的洞察。AWS Neuron 与 Amazon SageMaker、Amazon SageMaker Hyerpod、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)、AWS ParallelCluster 和 AWS Batch 等服务以及 Ray(Anyscale)、Domino Data Lab 和 Datadog 等第三方服务集成。
为了在实现准确性目标的同时提供高性能,AWS Trainium 支持多种混合精度
数据类型,例如 BF16、FP16、FP8、MXFP8 和 MXFP4。为支持生成式人工智能的快速创新,
Trainium2 和 Trainium3 进行了硬件优化,可实现 4 倍稀疏性(16:4)、微缩放、随机
舍入和专用集体引擎。
借助 Neuron,开发人员可以使用 Neuron Kernel 接口(NKI)来开发内核,以便优化工作负载。NKI 公开了完整的 Trainium ISA,可以完全控制指令级编程、内存分配和执行调度。除了构建自己的内核以外,开发人员还可以使用开源的 Neuron Kernel Library,随时部署经过优化的内核。最后,Neuron Explore 提供了全栈可见性,可以将开发人员的代码连接到硬件中的引擎。
客户
Databricks、Ricoh、Karakuri、SplashMusic 等客户正在通过 Trn1 实例实现性能和成本优势。
包括 Anthropic、Databricks、Poolside、Ricoh 和 NinjaTech AI 在内的众多客户正在 Trn1 和 Trn2 实例上实现显著的性能和成本优势。
Trn3 的早期采用者正在将下一代大规模生成式人工智能模型的效率和可扩展性提高到新的水平。