宣佈推出 Amazon EC2 Trn3 UltraServers,以實現更快速、成本更低的生成式 AI 訓練

張貼日期: 2025年12月2日

AWS 宣佈正式推出 Amazon Elastic Compute Cloud (Amazon EC2) Trn3 UltraServers,由我們的第四代 AI 晶片 Trainium3 提供運算能力,這是我們首款 3nm AWS AI 晶片,專為提供新世代代理式、推理與影片生成應用程式的最佳詞元經濟效益所打造。

每個 AWS Trainium3 晶片提供 2.52 PFLOPs 的 FP8 運算效能,相較於 Trainium2,記憶體容量提升 1.5 倍、頻寬提升 1.7 倍,達到 144 GB HBM3e 記憶體與 4.9 TB/s 記憶體頻寬。Trainium3 專為密集型和專家級並行工作負載所設計,支援進階資料類型 (MXFP8 與 MXFP4),並改善記憶體與運算的平衡,以支援即時、多模態與推理任務。

Trn3 UltraServers 最多可擴展至 144 個 Trainium3 晶片 (總計 362 FP8 PFLOPs),並可在 EC2 UltraClusters 3.0 中擴展到數十萬個晶片。一台完整設定的 Trn3 UltraServer 可提供高達 20.7 TB 的 HBM3e 與 706 TB/s 的總記憶體頻寬。次世代 Trn3 UltraServer 搭載 NeuronSwitch-v1 (一種全連接網路架構),可使晶片間互連頻寬較 Trn2 UltraServer 提升兩倍。

Trn3 提供最高 4.4 倍效能、3.9 倍記憶體頻寬與 4 倍效能/瓦特表現,相較於 Trn2 UltraServers,在訓練與服務前沿規模模型 (包括強化學習、Mixture-of-Experts (MoE)、推理與長內容架構) 方面提供最佳性價比。在 Amazon Bedrock 上,Trainium3 是我們最快的加速器,效能比 Trainium2 高出最多 3 倍,並在類似使用者延遲下,每單位兆瓦的輸出詞元數比 Trainium2 高出 5 倍以上。

全新的 Trn3 UltraServers 專為 AI 研究人員打造,並由 AWS Neuron SDK 提供支援,以釋放突破性效能。透過原生 PyTorch 整合,開發人員可以在不更改任何模型程式碼的情況下進行訓練與部署。為 AI 效能工程師提供更深層的 Trainium3 存取能力,使他們能微調效能、自訂核心,並將模型推向更高境界。因為創新在開放環境中茁壯,我們致力於透過開源工具與資源與開發人員緊密合作。