Amazon EC2 UltraServer

大規模 AI 訓練與推論

為什麼選擇 Amazon EC2 UltraServer?

Amazon Elastic Compute Cloud (Amazon EC2) UltraServer 非常適合尋求萬億參數規模模型的最高 AI 訓練和推論效能的客戶。UltraServers 使用專用的高頻寬、低延遲加速器互連來連線多個 EC2 執行個體,使您能夠利用跨 EC2 執行個體的緊密耦合加速器網格,以及存取遠多於獨立 EC2 之心個體的運算能力和記憶體。

EC2 UltraServer 非常適合需要比獨立 EC2 執行個體所能提供更多記憶體和記憶體頻寬的最大型模型。UltraServer 設計使用執行個體內加速器連線,將多個執行個體連線至一個節點,從而解鎖全新功能。對於推論而言,UltraServer 可協助提供業界領先的回應時間,進而創造出最佳的即時體驗。對於訓練而言,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行性的模型訓練速度和效率。EC2 UltraServer 支援 EFA 聯網,在 EC2 UltraCluster 中部署時,可在單個 PB 級無封鎖網路上實現跨數萬個加速器的擴展分散式訓練。透過為訓練和推論提供更高效能,UltraServer 可縮短上市時間,並協助您提供由最高效能的下一代基礎模型提供支援的即時應用程式。

優勢

功能

支援的執行個體

Trn2 執行個體

AWS Trainium2 晶片的支援下,Trn2 UltraServer 組態中的 Trn2 執行個體 (提供預覽版) 可讓您擴展到最多 64 個 Trainium2 晶片,這些晶片透過 NeuronLink (用於 AWS AI 晶片的專用高頻寬、低延遲互連) 連線。在 Amazon EC2 中,Trn2 UltraServer 為生成式 AI 訓練和推論提供突破性的效能。

進一步了解