宣佈推出 Amazon EC2 Trn3 UltraServers,以實現更快速、成本更低的生成式 AI 訓練
AWS 宣佈正式推出 Amazon Elastic Compute Cloud (Amazon EC2) Trn3 UltraServers,由我們的第四代 AI 晶片 Trainium3 提供運算能力,這是我們首款 3nm AWS AI 晶片,專為提供新世代代理式、推理與影片生成應用程式的最佳詞元經濟效益所打造。
每個 AWS Trainium3 晶片提供 2.52 PFLOPs 的 FP8 運算效能,相較於 Trainium2,記憶體容量提升 1.5 倍、頻寬提升 1.7 倍,達到 144 GB HBM3e 記憶體與 4.9 TB/s 記憶體頻寬。Trainium3 專為密集型和專家級並行工作負載所設計,支援進階資料類型 (MXFP8 與 MXFP4),並改善記憶體與運算的平衡,以支援即時、多模態與推理任務。
Trn3 UltraServers 最多可擴展至 144 個 Trainium3 晶片 (總計 362 FP8 PFLOPs),並可在 EC2 UltraClusters 3.0 中擴展到數十萬個晶片。一台完整設定的 Trn3 UltraServer 可提供高達 20.7 TB 的 HBM3e 與 706 TB/s 的總記憶體頻寬。次世代 Trn3 UltraServer 搭載 NeuronSwitch-v1 (一種全連接網路架構),可使晶片間互連頻寬較 Trn2 UltraServer 提升兩倍。
Trn3 提供最高 4.4 倍效能、3.9 倍記憶體頻寬與 4 倍效能/瓦特表現,相較於 Trn2 UltraServers,在訓練與服務前沿規模模型 (包括強化學習、Mixture-of-Experts (MoE)、推理與長內容架構) 方面提供最佳性價比。在 Amazon Bedrock 上,Trainium3 是我們最快的加速器,效能比 Trainium2 高出最多 3 倍,並在類似使用者延遲下,每單位兆瓦的輸出詞元數比 Trainium2 高出 5 倍以上。
全新的 Trn3 UltraServers 專為 AI 研究人員打造,並由 AWS Neuron SDK 提供支援,以釋放突破性效能。透過原生 PyTorch 整合,開發人員可以在不更改任何模型程式碼的情況下進行訓練與部署。為 AI 效能工程師提供更深層的 Trainium3 存取能力,使他們能微調效能、自訂核心,並將模型推向更高境界。因為創新在開放環境中茁壯,我們致力於透過開源工具與資源與開發人員緊密合作。