AWS 人工智能芯片

AWS Trainium

Trainium – 专为规模化、高性能、高性价比人工智能量身打造

为什么选择 Trainium？

AWS Trainium 是一系列专门构建的人工智能加速器（Trainium1、Trainium2 和 Trainium3），旨在为各种生成式人工智能工作负载的训练和推理提供可扩展的性能和成本效益。

AWS Trainium 系列

Trainium1

第一代 AWS Trainium 芯片为 Amazon Elastic Compute Cloud（Amazon EC2）Trn1 实例提供支持，这些实例的训练成本比同类 Amazon EC2 实例降低多达 50%。包括 Ricoh、Karakuri、SplashMusic 和 Arcee AI 在内的众多客户都已通过 Trn1 实例获得了性能和成本优势。

Trainium2

AWS Trainium2 芯片的性能是第一代 Trainium 的 4 倍。基于 Trainium2 的 Amazon EC2 Trn2 实例和 Trn2 UltraServer 专为生成式人工智能而构建，与基于 GPU 的 EC2 P5e 和 P5en 实例相比，它们的性价比提高了 30% 到 40%。Trn2 实例采用多达 16 个 Trainium2 芯片，Trn2 UltraServer 采用多达 64 个 Trainium2 芯片，这些芯片使用我们专有的芯片间互连技术 NeuronLink 进行互连。您可以使用 Trn2 实例和 UltraServer 来训练和部署要求极为严苛的模型，包括大型语言模型（LLM）、多模态模型和扩散转换器，以便构建多种下一代生成式人工智能应用程序。

Trainium3

AWS 的首款 3 纳米人工智能芯片，专为下一代代理式、推理式及视频生成应用打造，旨在提供更优的 Token（词元）经济效益。AWS Trainium3 芯片的计算性能提升 2 倍，提供 2.52 千万亿次浮点（PFLOP）的 FP8 算力，与 Trainium2 相比，内存容量增加 1.5 倍，带宽增加 1.7 倍，达到 144 GB 的 HBM3e 内存，以及 4.9 TB/s 的内存带宽。相比 Trn2 UltraServer，Trn3 UltraServer 搭载 Trainium3，性能提升高达 4.4 倍，内存带宽提升 3.9 倍，能效提升超过 4 倍。Trainium3 专为密集型和专家并行工作负载而设计，支持高级数据类型（MXFP8 和 MXFP4），并改善了内存与计算平衡，可高效推进实时、多模态以及推理任务。

专为开发人员而构建

新的 Trainium3 驱动型 UltraServer 专为人工智能研究人员而构建，并由 AWS Neuron SDK 提供支持，以解锁突破性的性能。

通过原生 PyTorch 集成，开发人员无需更改任何代码即可进行训练和部署。对于人工智能性能工程师，我们已提供对 Trainium 3 的更深入访问权限，助力开发人员微调性能、自定义内核，并进一步释放模型潜力。由于创新需要开放的环境才能蓬勃发展，我们致力于通过开源工具和资源与开发人员紧密协作。

了解更多信息，请访问 Amazon EC2 Trn3 UltraServer，并探索 AWS Neuron SDK。

优势

Trn3 UltraServer 采用纵向扩展 UltraServer 技术的最新创新成果，借助 NeuronSwitch-v1 可在多达 144 个 Trainium3 芯片间实现更快速的全对全集合通信。Trn3 UltraServer 提供高达 20.7 TB HBM3e、706 TB/s 内存带宽与 362 PFLOP 的 MXFP8 算力，性能较 Trn2 UltraServer 提升高达 4.4 倍，能效提升超 4 倍。Trn3 借助最新的 1T+ 参数 MoE 模型和推理类模型，以极低成本实现了训练和推理的强劲性能，与基于 Trainium2 的实例相比，可显著提升大规模 GPT-OSS 服务的吞吐量。

对于多达 1T 参数的生成式人工智能训练和推理，Trn2 UltraServer 仍然是高性能、经济高效的选择。Trn2 实例采用多达 16 个 Trainium2 芯片，Trn2 UltraServer 采用多达 64 个 Trainium2 芯片，这些芯片使用我们专有的芯片间互连技术 NeuronLink 进行互连。

Trn1 实例采用多达 16 个 Trainium 芯片，可提供高达 3 PFLOP 的 FP8 算力、512 GB 的 HBM、9.8 TB/s 的内存带宽，以及高达 1.6 Tbps 的 EFA 联网能力。

AWS Neuron 软件开发工具包有助于充分释放 Trn3、Trn2 和 Trn1 实例的强劲性能，以便让您专注于构建和部署模型，并缩短产品上市时间。AWS Neuron 与 PyTorch Jax 以及 Hugging Face、vLLM、PyTorch Lightning 等基本库进行原生集成。它可以为分布式训练和推理优化开箱即用的模型，同时为分析和调试提供深入的洞察。AWS Neuron 与 Amazon SageMaker、Amazon SageMaker Hyerpod、Amazon Elastic Kubernetes Service（Amazon EKS）、Amazon Elastic Container Service（Amazon ECS）、AWS ParallelCluster 和 AWS Batch 等服务以及 Ray（Anyscale）、Domino Data Lab 和 Datadog 等第三方服务集成。

为了在实现准确性目标的同时提供高性能，AWS Trainium 支持多种混合精度
数据类型，例如 BF16、FP16、FP8、MXFP8 和 MXFP4。为支持生成式人工智能的快速创新，
Trainium2 和 Trainium3 进行了硬件优化，可实现 4 倍稀疏性（16:4）、微缩放、随机
舍入和专用集体引擎。

借助 Neuron，开发人员可以使用 Neuron Kernel 接口（NKI）来开发内核，以便优化工作负载。NKI 公开了完整的 Trainium ISA，助力完全控制指令级编程、内存分配和执行调度。除了构建自己的内核以外，开发人员还可以使用开源的 Neuron Kernel Library，随时部署经过优化的内核。最后，Neuron Explore 提供了全栈可见性，助力将开发人员的代码连接到硬件中的引擎。

客户

Anthropic、Decart、poolside、Databricks、Ricoh、Karakuri、SplashMusic 等客户正在通过 Trn1、Trn2 和 Trn3 实例及 UltraServer 实现性能和成本优势。

Trn3 的早期采用者正在将下一代大规模生成式人工智能模型的效率和可扩展性提高到新的水平。