跳至主要內容

Amazon EC2

AWS EC2 Trn3 執行個體

專為下一代代理式、推理與影片生成應用提供最佳詞元經濟效益而設計。

為何選擇 Amazon EC2 Trn3 UltraServers?

目前的前沿模型正轉向萬億參數、多模態模型,支援超過 100 萬詞元的長上下文,這需要新一代的擴展型高效能運算。Amazon EC2 Trn3 UltraServers 與 AWS Neuron 開發人員堆疊專為滿足這些需求而打造,提供訓練與部署下一代代理式與推理系統所需的效能、成本效益與能源效率。 

Amazon EC2 Trn3 UltraServers 採用第四代 AI 晶片 Trainium3,這是我們首款 3nm AWS AI 晶片,專為下一代代理式、推理與影片生成應用提供最佳詞元經濟效益而設計。

Trn3 UltraServer 的效能比 Trn2 UltraServers 高達 4.4 倍,記憶體頻寬高 3.9 倍,並且效能/瓦特超過 4 倍,為訓練與部署前沿規模模型 (包括強化學習、專家混合模型 MoE、推理與長上下文架構) 提供最佳性價比。Trn3 UltraServers 延續 Trainium 系列在性價比與可擴展性的領先地位,協助您更快地進行訓練,並以更高的效能和更低的成本部署下一代基礎模型。

Trn3 UltraServers 可擴展至 144 個 Trainium3 晶片 (最高可達 362 FP8 PFLOPs),並在 EC2 UltraClusters 3.0 中提供,支援擴展至數十萬個晶片。 下一代 Trn3 UltraServer 配備 NeuronSwitch-v1,採用 NeuronLink-v4 的全連接網路架構,每個晶片提供 2TB/s 的頻寬。

您可以輕鬆上手,因為它原生支援 PyTorch、JAX、Hugging Face Optimum Neuron 及其他程式庫,並與 Amazon SageMaker、EKS、ECS、AWS Batch 及 ParallelCluster 完全相容。

Missing alt text value

優勢

Trn3 UltraServers 採用 AWS Trainium3 晶片,與 Trn2 UltraServer 相比,效能提高了 4.4 倍,記憶體頻寬提高了 3.9 倍,每瓦效能提高了 4 倍。在 Amazon Bedrock 上,Trainium3 是最快的加速器,效能比 Trainium2 快 3 倍。這種卓越的效能提升也意味著,在大規模部署時,像 GPT-OSS 這類模型的輸送量相比於 Trainium2 型執行個體大幅增加,同時仍讓每位使用者能保持低延遲狀態。

每個 Trn3 UltraServer 最多可擴展到 144 個 Trainium3 晶片,與 Trn2 相比,新機架的晶片密度提高超過 2 倍,從而增加了每個機架的運算能力,並改善資料中心效率。Trn3 UltraServers 建構於 AWS Nitro System 與 Elastic Fabric Adapter (EFA) 之上,並部署於非阻塞、多 拍位元組規模的 EC2 UltraClusters 3.0,支援擴展至數十萬個 Trainium 晶片,以進行分散式訓練與服務。

秉承 Trainium 在效能方面的領先地位,Trn3 執行個體相較於傳統 AI 加速器能提供更佳的性價比,降低每個詞元與每次實驗的成本。對於 GPT-OSS 與前沿規模 LLM 等工作負載,更高的輸送量可降低推論成本,並縮短最嚴苛模型的訓練時間。

AWS Trainium3 晶片是我們首款 3nm AI 晶片,經過最佳化,可為新一代代理式、推理與影片生成應用提供最佳詞元經濟效益。Trn3 UltraServers 的能源效率比 Trn2 UltraServers 高超過 4 倍,且在 Amazon Bedrock 上也有同樣的表現。  在實際應用中,Trn3 每兆瓦的輸出詞元量比 Trn2 UltraServer 高出 5 倍以上,同時讓每位使用者的延遲情況保持在相似水準,協助您在不犧牲效能的情況下達成永續目標。

Trn3 UltraServers 由 AWS Neuron 提供支援,AWS Neuron 是 AWS Trainium 與 AWS Inferentia 的開發人員堆疊,因此您可以在不修改程式碼的情況下執行現有的 PyTorch 與 JAX 程式。

TNeuron 支援熱門的機器學習程式庫 (如 vLLM、Hugging Face Optimum Neuron、PyTorch Lightning、TorchTitan),並整合 Amazon SageMaker、Amazon SageMaker HyperPod、Amazon EKS、Amazon ECS、AWS Batch 與 AWS ParallelCluster 等服務。

功能

每個 AWS Trainium3 晶片提供 2.52 FP8 PFLOPs 的運算能力,而 Trn3 UltraServers 最多可擴展至 144 個 Trainium3 晶片,單一 UltraServer 提供最高 362 FP8 PFLOPs 的總 FP8 運算能力。這個高密度運算規格專為訓練與部署前沿規模的 Transformer 架構、專家混合模型 (MoE) 及長上下文架構而設計。

AWS Trainium3 在記憶體容量與頻寬上均優於前一代,每個晶片提供 144 GB HBM3e 記憶體與 4.9 TB/s 記憶體頻寬。Trn3 UltraServer 提供最高 20.7 TB HBM3e 與 706 TB/s 總記憶體頻寬,使超大規模多模態、影像及推理模型能支援更大的批次大小、更長的上下文窗口,並提高運算資源利用率。

Trn3 UltraServers 引入 NeuronSwitch-v1,這是一種全連接網路架構,其晶片間互連頻寬比 Trn2 UltraServers 增加一倍,提升模型並行效率並降低 MoE 與張量並行訓練的通訊負擔。 Trn3 UltraServers 每個 UltraServer 最多支援 144 個晶片,是 Trn2 UltraServers 的 2 倍以上。對於大規模分散式訓練,我們在 UltraCluster 3.0 中部署 Trn3 UltraServers,在單一非阻塞、拍位元組規模的網路中使用數十萬個 Trainium3 晶片。

Trainium3 支援 FP32、BF16、MXFP8 與 MXFP4 精度模式,使您能在密集與專家平行工作負載間平衡準確性與效率。內建的集合通訊引擎可加速同步,並降低大型變壓器架構、擴散模型及專家混合模型的訓練負擔,提升大規模訓練的端對端運算效能。

Trn3 UltraServers 使用 AWS Neuron SDK 進行程式設計,該 SDK 提供 AWS Trainium 與 AWS Inferentia 的編譯器、執行環境、訓練與推論程式庫,以及開發工具。Neuron Kernel Interface (NKI) 提供對 Trainium 指令集、記憶體與執行排程的低階存取,使效能工程師能建立自訂核心,並效能推升至超越標準框架的水準。Neuron Explorer 提供統一的分析與偵錯環境,能追蹤從 PyTorch 與 JAX 程式碼到硬體操作的執行過程,並提供可行的見解以最佳化資料碎片策略、核心效能以及大規模分散式運算。

找到今天所需的資訊了嗎?

讓我們知道,以便我們改善頁面內容的品質