Amazon EC2

Amazon EC2 UltraClusters

大規模執行高效能運算 (HPC) 和機器學習 (ML) 應用程式

開始使用 P6e-GB200

開始使用 Trn2

為何選擇 Amazon EC2 UltraClusters？

Amazon Elastic Compute Cloud (Amazon EC2) UltraClusters 可協助您擴展至數千個 GPU 或專門打造的 ML AI 晶片 (例如 AWS Trainium)，以取得超級電腦的隨需存取。它們透過依用量計費用量模型，不需任何設定或維護成本，為機器學習 (ML)、生成式 AI和高效能運算 (HPC) 開發人員將超級運算類別效能的存取大眾化。在 EC2 UltraClusters 中部署的 Amazon EC2 執行個體包括 P6e-GB200、P6-B200、P5en、P5e、P5、P4d、Trn2 和 Trn1 執行個體。

EC2 UltraClusters 由數千個加速 EC2 執行個體組成，共置在指定 AWS 可用區域，並且使用 PB 規模非阻攔式網路中的 Elastic Fabric Adapter (EFA) 網路互連。EC2 UltraCluster 還提供 Amazon FSx for Lustre 的存取權，這是一種完全受管理的共用儲存裝置，建立在最受歡迎的高效能平行檔案系統上，可根據需求快速處理大量資料集，延遲時間低於毫秒。EC2 UltraCluster 為分散式 ML 訓練和緊密連接的 HPC 工作負載提供擴展功能。

優勢

EC2 UltraClusters 可協助您將訓練時間和解決方案產生時間從數週縮短為數天。這有助於您以更快的步驟進行迭代，並更快地將深度學習 (DL)、生成式 AI 和 HPC 應用程式推出市場。

EC2 UltraClusters 由數千個加速 EC2 執行個體組成，共置在指定 AWS 可用區域，並且使用 PB 規模非阻攔式網路中的 Elastic Fabric Adapter (EFA) 網路互連。它們可讓您隨需存取多個 exaflop 的加速運算。

在不斷增長的 EC2 執行個體清單中支援 EC2 UltraCluster，讓您靈活選擇合適的運算選項，以最大化效能，同時控制工作負載的成本。

功能

高效能聯網

在 EC2 UltraCluster 中部署的 EC2 執行個體與 EFA 網路相互連，以提高分散式訓練工作負載和緊密連接的 HPC 工作負載的效能。P6e-GB200 UltraServer 可提供高達每秒 28.8 TB 的總 EFAv4 聯網。P6-B200 執行個體可提供每秒高達 3.2TB 的 EFAv4 聯網。Trn2 UltraServers 具有每秒 12.8TB 的 EFAv3 聯網。P5en、P5e、P5 和 Trn2 執行個體提供高達 3,200 Gbps；Trn1 執行個體提供高達 1,600 Gbps；而 P4d 執行個體提供高達 400 Gbps 的 EFA 網路。EFA 也與 NVIDIA GPUDirect 遠端直接記憶體存取 (RDMA) (P6-B200、P5en、P5e、P5、P4d) 和 NeuronLink (Trn2、Trn1) 搭配，在具有作業系統旁路功能的伺服器之間啟用低延遲加速器對加速器通訊。

高效能儲存

EC2 UltraClusters 使用 FSx for Lustre，這是在最熱門高效能平行檔案系統上建置的全受管共用儲存空間。使用 FSx for Lustre，您可以快速隨需和大規模處理大量資料集，並且提供低於一毫秒的延遲。FSx for Lustre 的低延遲和高輸送量特性已針對 EC2 UltraCluster 上的 DL、生成式 AI 和 HPC 工作負載進行最佳化。FSx for Lustre 可持續為 EC2 UltraCluster 中的 GPU 和 AI 晶片饋送資料，加速最嚴苛的工作負載。這些工作負載包括大型語言模型 (LLM) 訓練、生成式 AI 推論、DL、基因體學和財務風險建模。您也可以透過 Amazon Simple Storage Service (Amazon S3) 存取幾乎無限制且具成本效益的儲存空間。

支援的執行個體和 UltraServer

P6e-GB200 UltraServer

由 NVIDIA GB200 NVL72 加速，UltraServer 組態的 P6e-GB200 執行個體，在 Amazon EC2 中提供了最高的 GPU AI 訓練和推理性能。

進一步了解

P6-B200 執行個體

Amazon EC2 P6-B200 執行個體由 NVIDIA Blackwell GPU 加速，提供適用於 AI 訓練、推論和 HPC 的高效能執行個體。

進一步了解

Trn2 執行個體和 UltraServer

Trn2 執行個體採用 AWS Trainium2 AI 晶片技術，相較於同類型 GPU 為基礎的執行個體，可提升高達 30 至 40% 的價格效能。

進一步了解

P5en、P5e 和 P5 執行個體

P5en 和 P5e 執行個體採用 NVIDIA H200 Tensor Core GPU，可在 Amazon EC2 中為 ML 訓練和 HPC 應用程式提供高效能。P5 執行個體採用 NVIDIA H100 Tensor Core GPU。

進一步了解

P4d 執行個體

P4d 執行個體採用 NVIDIA A100 Tensor Core GPU，可為 ML 訓練和 HPC 應用程式提供高效能。

進一步了解

Trn1 執行個體

採用 AWS Trainium AI 晶片，Trn1 執行個體專為高效能 ML 訓練而打造。與其他同類 EC2 執行個體相比，Trn1 執行個體可節省高達 50% 的訓練成本。

進一步了解

開始使用

入門

註冊 AWS 帳戶

立即存取 AWS 免費方案

教學

利用 10 分鐘教學了解

跟著簡單的教學一同探索並學習

找到今天所需的資訊了嗎？

歡迎告知，以便我們改善頁面內容品質

Amazon EC2 UltraClusters

為何選擇 Amazon EC2 UltraClusters？

優勢

功能

高效能聯網

高效能儲存

支援的執行個體和 UltraServer

P6e-GB200 UltraServer

P6-B200 執行個體

Trn2 執行個體和 UltraServer

P5en、P5e 和 P5 執行個體

P4d 執行個體

Trn1 執行個體

開始使用

註冊 AWS 帳戶

利用 10 分鐘教學了解

找到今天所需的資訊了嗎？

了解

資源

開發人員

說明

Amazon EC2 UltraClusters

為何選擇 Amazon EC2 UltraClusters？

優勢

為分散式訓練和 HPC 加快解決方案的時間

隨需存取 exascale 超級電腦

最佳化效能與成本的彈性

功能

高效能聯網

高效能儲存

支援的執行個體和 UltraServer

P6e-GB200 UltraServer

P6-B200 執行個體

Trn2 執行個體和 UltraServer

P5en、P5e 和 P5 執行個體

P4d 執行個體

Trn1 執行個體

開始使用

註冊 AWS 帳戶

利用 10 分鐘教學了解

找到今天所需的資訊了嗎？

了解

資源

開發人員

說明