- Amazon EC2›
- 執行個體類型›
- Amazon EC2 P6e-GB200 UltraServer 和 P6-B200 執行個體
Amazon EC2 P6e UltraServer 和 P6 執行個體
用於 AI 訓練和推論的最高 GPU 效能
為什麼選擇 Amazon EC2 P6e UltraServer 和 P6 執行個體?
Amazon Elastic Compute Cloud (Amazon EC2) P6e UltraServer 由 NVIDIA GB200 NVL72 加速,在 Amazon EC2 中提供最高 GPU 效能。與 P5en 執行個體相比,P6e-GB200 在 NVIDIA NVLinkTM 下提供 20 倍以上的運算能力和 11 倍以上的記憶體。這些 UltraServer 非常適合運算和記憶體密集型 AI 工作負載,例如訓練和部署數億萬億參數規模的前沿模型。與 P6e-GB200 執行個體相比,由 NVIDIA GB300 NVL72 加速的 P6e-GB300 UltraServer 提供 1.5 倍 GPU 記憶體和 1.5 倍 GPU TFLOPS (FP4,不含稀疏化處理)。每台 UltraServer 配備近 20TB 的 GPU 記憶體,因此 P6e-GB300 非常適合萬億參數規模的 AI 模型和使用案例。
Amazon EC2 P6 執行個體由 NVIDIA Blackwell 和 Blackwell Ultra GPU 加速,是中大規模訓練和推論應用程式的理想選擇。與 P5en 執行個體相比,P6-B200 執行個體在 AI 訓練和推論方面提供高達 2 倍的效能,而 P6-B300 執行個體則為大規模 AI 訓練和推論提供高效能。這些執行個體非常適合複雜的模型,例如專家混合模型 (MoE) 和具有數萬億個參數的推論模型。
P6e UltraServer 和 P6 執行個體能夠加快下一代 AI 模型的訓練速度,並且提高生產環境中即時推論的效能。您可以使用 P6e UltraServer 和 P6 執行個體來訓練前沿基礎模型 (FM),例如 MoE 和推論模型,並將它們部署在生成式和代理式 AI 應用程式中,例如內容產生、企業級智慧助手和深度研究代理程式。
優勢
P6e UltraServer
與 P6e-GB200 相比,藉助 P6e-GB300,客戶可利用 1.5 倍的 GPU 記憶體和 1.5 倍的 GPU TFLOPS (FP4,無稀疏化處理),從而提高運算和記憶體密集型 AI 工作負載的效能。
藉助 P6e-GB200 UltraServer,客戶可以在一個 NVLink 網域內存取多達 72 個 Blackwell GPU,以使用 360 petaflops 的 FP8 運算 (無稀疏化處理)和 13.4 TB 的總高頻寬記憶體 (HBM3e)。P6e-GB200 UltraServer 可提供高達每秒 130 TB 的低延遲 NVLink GPU 連線,以及高達每秒 28.8 TB 的 Elastic Fabric Adapter 聯網(EFAv4),用於進行 AI 訓練和推論。P6e-GB200 上的這種 UltraServer 架構使客戶能夠利用運算和記憶體方面的飛躍式改進,與 P5en 相比,在 NVLink 下 GPU TFLOPS 最高可達 20 倍,GPU 記憶體最高可達 11 倍,GPU 記憶體總頻寬最高可達 15 倍。
P6 執行個體
P6-B300 執行個體提供 8 顆 NVIDIA Blackwell Ultra GPU,配備 2.1 TB 高頻寬 GPU 記憶體、6.4 Tbps EFA 網路、300 Gbps 專用 ENA 輸送量,以及 4 TB 的系統記憶體。與 P6-B200 執行個體相比,P6-B300 執行個體可提供 2 倍的網路頻寬、1.5 倍的 GPU 記憶體大小和 1.5 倍的 GPU TFLOPS (FP4,無稀疏化處理)。這些改進使 P6-B300 執行個體非常適合大規模 ML 訓練和推論。
P6-B200 執行個體提供 8 個 NVIDIA Blackwell GPU,配備 1440 GB 高頻寬 GPU 記憶體、第五代 Intel Xeon 可擴充處理器 (Emerald Rapids)、2 TiB 系統記憶體、高達 14.4 TBp/s 的雙向 NVLink 總頻寬以及 30 TB 本機 NVMe 存儲。與 P5en 執行個體相比,這些執行個體的 GPU TFLOPs 最高可達 2.25 倍,GPU 記憶體容量最高可達 1.27 倍,GPU 記憶體頻寬最高可達 1.6 倍。
P6e UltraServer 和 P6 執行個體由 AWS Nitro System 提供支援,該系統採用專門設計的硬體和韌體來強制執行限制,以便任何人 (包括 AWS 的任何人) 都無法存取您的敏感 AI 工作負載和資料。Nitro System 可處理聯網、儲存和其他 I/O 功能,在維持營運期間部署韌體更新、錯誤修正和最佳化。這樣可提高穩定性並減少停機時間,對於滿足訓練時間表和在生產中執行 AI 應用程式至關重要。
為實現高效的分散式訓練,P6e UltraServer 和 P6 執行個體使用第四代 Elastic Fabric Adapter 聯網 (EFAv4)。EFAv4 使用 Scalable Reliable Datagram (SRD) 通訊協定,即使在網路擁塞或故障期間,也能智慧地將流量路由到多個網路路徑上,以保持平穩運轉。
P6e UltraServer 和 P6 執行個體部署在 Amazon EC2 UltraClusters 中,可在 PB 規模非封鎖網路中擴展到數萬個 GPU。
功能
P6-B200 執行個體中的每個 NVIDIA Blackwell GPU 都配備了第二代 Transformer Engine,並支援 FP4 等新的精度格式。它支援第五代 NVLink,這是一種更快速、更寬廣的互連,每個 GPU 可提供高達 1.8 TBp/s 的頻寬。
Grace Blackwell 超級晶片是 P6e-GB200 的關鍵元件,它使用 NVIDIA NVLink-C2C 互連技術連線兩個高效能 NVIDIA Blackwell GPU 和一個 NVIDIA Grace CPU。每個超級晶片可提供 10 PB 的 FP8 運算 (無稀疏化處理) 和高達 372 GB 的 HBM3e。藉助超級晶片架構,2 個 GPU 和 1 個 CPU 位於同一個運算模組中,與當前一代 P5en 執行個體相比,GPU 和 CPU 之間的頻寬提高一個數量級。
與 P6-B200 執行個體相比,為 P6-B300 執行個體提供支援的 NVIDIA Blackwell Ultra GPU 可將網路頻寬提高 2 倍,GPU 記憶體提高 1.5 倍,並將有效 TFLOPS 的 FP4 運算效能 (無稀疏化處理) 提高高達 1.5 倍。
P6e-GB300 UltraServer 中使用的 Grace Blackwell 超級晶片將兩個 NVIDIA Blackwell Ultra GPU 與一個 NVIDIA Grace CPU 連線,可提供 1.5 倍的 GPU 記憶體和高達 1.5 倍的 FP4 運算改進 (無稀疏化處理)。
在 P6e UltraServer 和 P6 執行個體中,每個 GPU 提供 400 GB/s 的 EFAv4 網路頻寬,每個 P6e-GB200 UltraServer 的總頻寬為 28.8 Tbps,每個 P6-B200 執行個體的總頻寬為 3.2 Tbps。
P6-B300 執行個體提供 6.4 Tbps 的聯網頻寬,是 P6-B200 執行個體的 2 倍 (得益於 PCIe Gen6),並且專為大規模分散式深度學習模型訓練而設計。
P6e UltraServer 和 P6 執行個體支援 Amazon FSx for Lustre 檔案系統,因此您可以按數百 GBp/s 的輸送量和數百萬 IOPS 存取資料,滿足大規模 AI 訓練和推論的需求。P6e UltraServer 支援高達 405 TB 的本機 NVMe SSD 儲存,而 P6 執行個體支援高達 30 TB 的本機 NVMe SSD 儲存,以便快速存取大型資料集。您也可以透過 Amazon Simple Storage Service (Amazon S3) 使用幾乎無限制且具成本效益的儲存空間。
產品詳細資訊
執行個體類型
|
Instance Size
|
Blackwell GPUs
|
GPU memory (GB)
|
vCPUs
|
System memory (GiB)
|
Instance storage (TB)
|
Network bandwidth (Gbps)
|
EBS bandwidth (Gbps)
|
Available in EC2 UltraServers
|
|---|---|---|---|---|---|---|---|---|
|
p6-b300.48xlarge
|
8 Ultra
|
2,144 HBM3e
|
192 |
4,096
|
8 x 3.84
|
6.4
|
100 |
否 |
|
p6-b200.48xlarge
|
8 |
1,432 HBM3e
|
192 |
2,048
|
8 x 3.84
|
3.2
|
100 |
否 |
|
p6e-gb200.36xlarge
|
4 |
740 HBM3e |
144 |
960 |
3 x 7.5 |
3.2 |
60 |
是* |
*P6e-GB200 執行個體僅適用於 UltraServer
UltraServer 類型
|
Instance Size
|
Blackwell GPUs
|
GPU memory (GB)
|
vCPUs
|
System memory (GiB)
|
UltraServer Storage (TB)
|
Aggregate EFA bandwidth (Gbps)
|
EBS bandwidth (Gbps)
|
Available in EC2 UltraServers
|
|---|---|---|---|---|---|---|---|---|
|
u-p6e-gb200x72
|
72 |
13,320
|
2,592
|
17,280
|
405 |
28٬800
|
1,080
|
是 |
|
u-p6e-gb200x36
|
36 |
6,660
|
1,296
|
8٬640
|
202.5
|
14,400
|
540 |
是 |
ML 使用案例入門
Amazon SageMaker AI 是一項全受管服務,可用來建置、訓練和部署機器學習 (ML) 模型。透過 Amazon SageMaker HyperPod,您可以更輕鬆地擴展到數十、數百或數千個 GPU,以快速訓練任何規模的模型,而無需擔心設定和管理具有恢復能力的訓練叢集。(P6e-GB200 支援即將推出)
AWS Deep Learning AMI (DLAMI) 為 DL 從業人員和研究人員提供基礎設施和各種工具,以加速雲端中各種規模的 DL 工作。 AWS Deep Learning Containers 是連同 DL 架構一併預先安裝的 Docker 映像檔,讓您可以略過從頭建置及最佳化環境的複雜流程,更輕鬆地部署自訂 ML 環境。
如果您偏好透過容器協同運作服務來管理自己的容器化工作負載,則可以使用 Amazon Elastic Kubernetes Service (Amazon EKS) 或 Amazon Elastic Container Service (Amazon ECS) 部署 P6e-GB200 UltraServer 和 P6-B200 執行個體。
P6e UltraServer 也將透過 NVIDIA NVIDIA DGX Cloud 提供,這是一個完全受管的環境,配備了 NVIDIA 的完整 AI 軟體堆疊。藉助 NVIDIA DGX Cloud,您可以取得 NVIDIA 的最新最佳化、基準測試方法和技術專業知識。
找到今天所需的資訊了嗎?
讓我們知道,以便我們改善頁面內容的品質