為何選擇 Amazon EC2 UltraClusters?
Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters 可協助您擴展至數千個 GPU 或專門打造的 ML AI 晶片 (例如 AWS Trainium),以取得超級電腦的隨需存取。它們透過依用量計費用量模型,不需任何設定或維護成本,為機器學習 (ML)、生成式 AI和高效能運算 (HPC) 開發人員將超級運算類別效能的存取大眾化。在 EC2 UltraClusters 中部署的 Amazon EC2 執行個體包括 P6e-GB200、P6-B200、P5en、P5e、P5、P4d、Trn2 和 Trn1 執行個體。
EC2 UltraClusters 由數千個加速 EC2 執行個體組成,共置在指定 AWS 可用區域,並且使用 PB 規模非阻攔式網路中的 Elastic Fabric Adapter (EFA) 網路互連。EC2 UltraCluster 還提供 Amazon FSx for Lustre 的存取權,這是一種完全受管理的共用儲存裝置,建立在最受歡迎的高效能平行檔案系統上,可根據需求快速處理大量資料集,延遲時間低於毫秒。EC2 UltraCluster 為分散式 ML 訓練和緊密連接的 HPC 工作負載提供擴展功能。
優勢
為分散式訓練和 HPC 加快解決方案的時間
隨需存取 exascale 超級電腦
最佳化效能與成本的彈性
功能
高效能聯網
高效能儲存
支援的執行個體和 UltraServer
P6e-GB200 UltraServer
由 NVIDIA GB200 NVL72 加速,UltraServer 組態的 P6e-GB200 執行個體,在 Amazon EC2 中提供了最高的 GPU AI 訓練和推理性能。
Trn2 執行個體和 UltraServer
Trn2 執行個體採用 AWS Trainium2 AI 晶片技術,相較於同類型 GPU 為基礎的執行個體,可提升高達 30 至 40% 的價格效能。
P5en、P5e 和 P5 執行個體
P5en 和 P5e 執行個體採用 NVIDIA H200 Tensor Core GPU,可在 Amazon EC2 中為 ML 訓練和 HPC 應用程式提供高效能。P5 執行個體採用 NVIDIA H100 Tensor Core GPU。
Trn1 執行個體
採用 AWS Trainium AI 晶片,Trn1 執行個體專為高效能 ML 訓練而打造。與其他同類 EC2 執行個體相比,Trn1 執行個體可節省高達 50% 的訓練成本。
找到今天所需的資訊了嗎?
讓我們知道,以便我們改善頁面內容的品質