为什么选择 Trainium?
AWS Trainium 芯片是 AWS 专为人工智能训练和推理打造的人工智能芯片系列,可在降低成本的同时提供高性能。
第一代 AWS Trainium 芯片为 Amazon Elastic Compute Cloud(Amazon EC2)Trn1 实例提供支持,该实例的训练成本比同类 Amazon EC2 实例低 50%。包括 Databricks、理光、NinjaTech AI 和 Arcee AI 在内的许多客户都已通过 Trn1 实例实现性能和成本优势。
AWS Trainium2 芯片的性能是第一代 Trainium 的 4 倍。基于 Trainium2 的 Amazon EC2 Trn2 实例专为生成式人工智能而构建,与当前一代基于 GPU 的 EC2 P5e 和 P5en 实例相比,其性价比高出 30-40%。Trn2 实例采用 16 个 Trainium2 芯片,这些芯片使用我们专有的芯片间互连技术 NeuronLink 进行连接。您可以使用 Trn2 实例训练和部署要求极为严苛的模型,包括大语言模型(LLM)、多模态模型和扩散转换器,以构建广泛的下一代生成式人工智能应用程序集。Trn2 UltraServers 是一款全新的 EC2 产品(现已上线预览版),非常适合需要比独立 EC2 实例更多内存和内存带宽的大型模型。UltraServer 设计使用 NeuronLink,将四个 Trn2 实例中的 64 个 Trainium2 芯片连接到一个节点,以解锁新功能。在推理方面,UltraServers 有助于提供业界领先的响应速度,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。
借助对 PyTorch 和 JAX 等常用机器学习(ML)框架的原生支持,您可以开始在 Trn2 和 Trn1 实例上训练和部署模型。
优势
高性能且经济高效的生成式人工智能
Trn2 UltraServers 和实例在 Amazon EC2 中为生成式人工智能训练和推理提供突破性的性能。每台 Trn2 UltraServer 都有 64 个 Trainium2 芯片,通过我们专有的芯片间互连技术 NeuronLink 进行互连,可提供每秒高达 83.2 千亿次浮点运算的 FP8 计算能力、6 TB 的 HBM3 和每秒 185 TB(TBps)的内存带宽以及每秒 12.8 TB(Tbps)的 Elastic Fabric Adapter(EFA)网络连接。每个 Trn2 实例都有 16 个通过 NeuronLink 连接的 Trainium2 芯片,可提供每秒高达 20.8 千亿次浮点运算的 FP8 计算能力、1.5 TB 的 HBM3 和 46 TBps 的内存带宽以及 3.2 Tbps 的 EFA 网络连接。Trn1 实例采用多达 16 个 Trainium 芯片,提供每秒高达 3 千亿次浮点运算的 FP8 计算能力、512 GB HBM 和 9.8 TBps 的内存带宽以及高达 1.6 Tbps 的 EFA 网络连接。
原生支持多种 ML 框架和库
AWS Neuron SDK 有助于从 Trn2 和 Trn1 实例中提取全部性能,以便专注于构建和部署模型,加快产品上市时间。AWS Neuron 与 JAX、PyTorch 以及 Hugging Face、PyTorch Lightning 和 NeMo 等基本库原生集成。AWS Neuron 支持 Hugging Face 模型中心的 10 万多个模型,包括 Meta 的 Llama 系列模型和 Stable Diffusion XL 等常用模型。其可为分布式训练和推理优化开箱即用的模型,同时为分析和调试提供深入的见解。AWS Neuron 与 Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)、AWS ParallelCluster 和 AWS Batch 等服务以及 Ray(Anyscale)、Domino Data Lab 和 Datadog 等第三方服务集成。
先进的人工智能优化
为在实现精度目标的同时提供高性能,Trainium 芯片已针对 FP32、TF32、BF16、FP16 以及全新的可配置 FP8(cFP8)数据类型进行优化。为支持生成式人工智能的快速创新,Trainium2 已对 4 倍稀疏性(16:4)、微缩放、随机舍入和专用集体引擎进行硬件优化。
专为人工智能研究而设计
Neuron Kernel 接口(NKI)使用基于 Python 的环境和类似于 Triton 的界面,可直接访问指令集架构(ISA),以便创新性能优于现有技术的新模型架构和高度优化的计算内核。