為什麼選擇 Trainium?
AWS Trainium 晶片是 AWS 專為 AI 訓練和推論而建置的 AI 晶片系列,旨在於提供高效能的同時降低成本。
第一代 AWS Trainium 晶片為 Amazon Elastic Compute Cloud (Amazon EC2) Trn1 執行個體提供支援,其訓練成本比同類 Amazon EC2 執行個體降低高達 50%。許多客戶,包括 Databricks、Ricoh、NinjaTech AI 和 Arcee AI,正在實現 Trn1 執行個體的效能和成本效益。
AWS Trainium2 晶片的效能比第一代 Trainium 提升高達 4 倍。以 Trainium2 為基礎的 Amazon EC2 Trn2 執行個體專為生成式 AI 而建置,且價格效能比目前一代 GPU 型 EC2 P5e 和 P5en 執行個體好 30-40%。Trn2 執行個體配備 16 個 Trainium2 晶片,這些晶片透過 NeuronLink (我們專有的晶片間互連) 實現互連。您可以使用 Trn2 執行個體來訓練和部署要求最高的模型 (包括大型語言模型 (LLM)、多模態模型和擴散轉換器),以建置一組廣泛的下一代生成式 AI 應用程式。Trn2 UltraServer 是全新的 EC2 產品 (預覽版),非常適合需要比獨立 EC2 執行個體所能提供更多記憶體和記憶體頻寬的最大型模型。UltraServer 設計使用 NeuronLink 將四個 Trn2 執行個體中的 64 個 Trainium2 晶片連線至一個節點中,從而解鎖全新功能。對於推論而言,UltraServer 可協助提供業界領先的回應時間,進而創造出最佳的即時體驗。對於訓練而言,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行性的模型訓練速度和效率。
您可以開始在 Trn2 和 Trn1 執行個體上訓練和部署模型,其中原生支援 PyTorch 和 JAX 等熱門機器學習 (ML) 架構。
優勢
高效能、經濟高效的生成式 AI
在 Amazon EC2 中,Trn2 UltraServer 和執行個體為生成式 AI 訓練和推理提供突破性的效能。每個 Trn2 UltraServer 都有 64 個 Trainium2 晶片,這些晶片透過我們專有的晶片間互連 NeuronLink 實現互連,並提供高達 83.2 PFLOPS 的 FP8 運算能力、6 TB 的 HBM3 和 185 TB/秒 (Tbps) 的記憶體頻寬,以及 12.8 TB/秒 (Tbps) 的 Elastic Fabric Adapter (EFA) 聯網速度。每個 Trn2 執行個體都有 16 個與 NeuronLink 連線的 Trainium2 晶片,可提供高達 20.8 PFLOPS 的 FP8 運算能力、1.5 TB 的 HBM3 和 46 TB/秒 (Tbps) 的記憶體頻寬,以及 3.2 TB/秒 (Tbps) 的 EFA 聯網速度。 Trn1 執行個體配備最多 16 個 Trainium 晶片,可提供高達 3 PFLOPS 的 FP8 運算能力、512 GB 的 HBM 和 9.8 TB/秒 (Tbps) 的記憶體頻寬,以及高達 1.6 TB/秒 (Tbps) 的 EFA 聯網速度。
原生支援機器學習架構和程式庫
AWS Neuron SDK 可協助您從 Trn2 和 Trn1 執行個體擷取完整效能,讓您專注於建置和部署模型,同時縮短上市時間。AWS Neuron 與 JAX、PyTorch 以及 Hugging Face、PyTorch Lightning、and NeMo 等基本程式庫原生整合。AWS Neuron 支援 Hugging Face 模型中心上的 100,000 多個模型,其中包括 Meta 的 Llama 模型系列和 Stable Diffusion XL 等流行模型。它可以立即最佳化模型以進行分散式訓練和推論,同時針對分析和偵錯提供深入的洞見。AWS Neuron 與 Amazon SageMaker、Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS)、AWS ParallelCluster 和 AWS Batch 等服務整合,同時與 Ray (Anyscale)、Domino Data Lab 和 Datadog 等第三方服務整合。
最先進的 AI 最佳化
為了在滿足準確度目標的同時提供高效能,Trainium 晶片已針對 FP32、TF32、BF16、FP16 和新的可設定 FP8 (cFP8) 資料類型最佳化。為了支援生成式 AI 的快速創新步伐,Trainium2 針對 4 倍稀疏度 (16:4)、微擴展、隨機舍入和專用集體引擎進行硬體最佳化。
專為 AI 研究而設計
Neuron Kernel Interface (NKI) 支援使用具有類似 Triton 介面的 Python 型環境直接存取指令集架構 (ISA),讓您可以創新設計模型架構和高度最佳化的運算內核,使其效能超越現有技術。