Amazon EC2 Trn2 執行個體正式推出
今天,AWS 宣佈正式推出 Amazon Elastic Compute Cloud (Amazon EC2) Trn2 執行個體和搭載 AWS Trainium2 晶片的 Trn2 UltraServer 預覽版。 透過 EC2 容量區塊提供的 Trn2 執行個體和 UltraServer 是功能最強大的 EC2 運算解決方案,適用於深度學習和生成式 AI 訓練和推論。
您可以使用 Trn2 執行個體來訓練和部署要求最高的基礎模型 (包括大型語言模型 (LLM)、多模態模型、擴散變壓器等),以建置一系列多樣化的 AI 應用程式。若要縮短最强大、最先進的模型的訓練時間並實現劃時代的回應時間 (每個字符的延遲),所需運算能力和記憶體可能會超出單一執行個體所能提供的上限。Trn2 UltraServer 是一款使用 NeuronLink 的全新 EC2 產品,NeuronLink 是一種高頻寬、低延遲的網狀架構,能夠將 4 個 Trn2 執行個體的 64 顆 Trainium2 晶片連接至單一節點,從而獲得無與倫比的效能。對於推論而言,UltraServers 可協助提供業界領先的回應時間,進而創造出最佳的即時體驗。對於訓練而言,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行性的模型訓練速度和效率。
Trn2 執行個體搭載 16 顆 Trainium2 晶片,可提供高達 20.8 PFLOPS 的 FP8 運算速度、1.5 TB 的高頻寬記憶體 (具有 46 TB/s 記憶體頻寬),以及 3.2 Tbps 的 EFA 網路速度。Trn2 UltraServers 搭載 64 顆 Trainium2 晶片,可提供高達 83.2 PFLOPS 的 FP8 運算速度、總計 6 TB 的高頻寬記憶體 (總計具有 185 TB/s 的記憶體頻寬),以及 12.8 Tbps 的 EFA 網路速度。Trn2 執行個體和 Trn2 UltraServers 都部署在 EC2 UltraCluster 中,能夠為分散式訓練提供非阻攔式的 PB 級擴展功能。您可透過適用於 ML 的 EC2 容量區塊,在美國東部 (俄亥俄) AWS 區域正式使用 trn2.48xlarge 大小的 Trn2 執行個體。
若要進一步了解 Trn2 執行個體並請求 Trn2 UltraServers 的存取權,請瀏覽 Trn2 執行個體頁面。