跳至主要內容

Amazon EC2

Amazon EC2 P6e UltraServer 和 P6 執行個體

用於 AI 訓練和推論的最高 GPU 效能

為什麼選擇 Amazon EC2 P6e UltraServer 和 P6 執行個體?

Amazon Elastic Compute Cloud (Amazon EC2) P6e UltraServer 由 NVIDIA GB200 NVL72 加速,在 Amazon EC2 中提供最高 GPU 效能。與 P5en 執行個體相比,P6e-GB200 在 NVIDIA NVLinkTM 下提供 20 倍以上的運算能力和 11 倍以上的記憶體。這些 UltraServer 非常適合運算和記憶體密集型 AI 工作負載,例如訓練和部署數億萬億參數規模的前沿模型。與 P6e-GB200 執行個體相比,由 NVIDIA GB300 NVL72 加速的 P6e-GB300 UltraServer 提供 1.5 倍 GPU 記憶體和 1.5 倍 GPU TFLOPS (FP4,不含稀疏化處理)。每台 UltraServer 配備近 20TB 的 GPU 記憶體,因此 P6e-GB300 非常適合萬億參數規模的 AI 模型和使用案例。

Amazon EC2 P6 執行個體由 NVIDIA Blackwell 和 Blackwell Ultra GPU 加速,是中大規模訓練和推論應用程式的理想選擇。與 P5en 執行個體相比,P6-B200 執行個體在 AI 訓練和推論方面提供高達 2 倍的效能,而 P6-B300 執行個體則為大規模 AI 訓練和推論提供高效能。這些執行個體非常適合複雜的模型,例如專家混合模型 (MoE) 和具有數萬億個參數的推論模型。

P6e UltraServer 和 P6 執行個體能夠加快下一代 AI 模型的訓練速度,並且提高生產環境中即時推論的效能。您可以使用 P6e UltraServer 和 P6 執行個體來訓練前沿基礎模型 (FM),例如 MoE 和推論模型,並將它們部署在生成式和代理式 AI 應用程式中,例如內容產生、企業級智慧助手和深度研究代理程式。

優勢

P6e UltraServer

與 P6e-GB200 相比,藉助 P6e-GB300,客戶可利用 1.5 倍的 GPU 記憶體和 1.5 倍的 GPU TFLOPS (FP4,無稀疏化處理),從而提高運算和記憶體密集型 AI 工作負載的效能。

藉助 P6e-GB200 UltraServer,客戶可以在一個 NVLink 網域內存取多達 72 個 Blackwell GPU,以使用 360 petaflops 的 FP8 運算 (無稀疏化處理)和 13.4 TB 的總高頻寬記憶體 (HBM3e)。P6e-GB200 UltraServer 可提供高達每秒 130 TB 的低延遲 NVLink GPU 連線,以及高達每秒 28.8 TB 的 Elastic Fabric Adapter 聯網(EFAv4),用於進行 AI 訓練和推論。P6e-GB200 上的這種 UltraServer 架構使客戶能夠利用運算和記憶體方面的飛躍式改進,與 P5en 相比,在 NVLink 下 GPU TFLOPS 最高可達 20 倍,GPU 記憶體最高可達 11 倍,GPU 記憶體總頻寬最高可達 15 倍。

P6 執行個體

P6-B300 執行個體提供 8 顆 NVIDIA Blackwell Ultra GPU,配備 2.1 TB 高頻寬 GPU 記憶體、6.4 Tbps EFA 網路、300 Gbps 專用 ENA 輸送量,以及 4 TB 的系統記憶體。與 P6-B200 執行個體相比,P6-B300 執行個體可提供 2 倍的網路頻寬、1.5 倍的 GPU 記憶體大小和 1.5 倍的 GPU TFLOPS (FP4,無稀疏化處理)。這些改進使 P6-B300 執行個體非常適合大規模 ML 訓練和推論。

P6-B200 執行個體提供 8 個 NVIDIA Blackwell GPU,配備 1440 GB 高頻寬 GPU 記憶體、第五代 Intel Xeon 可擴充處理器 (Emerald Rapids)、2 TiB 系統記憶體、高達 14.4 TBp/s 的雙向 NVLink 總頻寬以及 30 TB 本機 NVMe 存儲。與 P5en 執行個體相比,這些執行個體的 GPU TFLOPs 最高可達 2.25 倍,GPU 記憶體容量最高可達 1.27 倍,GPU 記憶體頻寬最高可達 1.6 倍。

 

P6e UltraServer 和 P6 執行個體由 AWS Nitro System 提供支援,該系統採用專門設計的硬體和韌體來強制執行限制,以便任何人 (包括 AWS 的任何人) 都無法存取您的敏感 AI 工作負載和資料。Nitro System 可處理聯網、儲存和其他 I/O 功能,在維持營運期間部署韌體更新、錯誤修正和最佳化。這樣可提高穩定性並減少停機時間,對於滿足訓練時間表和在生產中執行 AI 應用程式至關重要。

為實現高效的分散式訓練,P6e UltraServer 和 P6 執行個體使用第四代 Elastic Fabric Adapter 聯網 (EFAv4)。EFAv4 使用 Scalable Reliable Datagram (SRD) 通訊協定,即使在網路擁塞或故障期間,也能智慧地將流量路由到多個網路路徑上,以保持平穩運轉。

P6e UltraServer 和 P6 執行個體部署在 Amazon EC2 UltraClusters 中,可在 PB 規模非封鎖網路中擴展到數萬個 GPU。

功能

P6-B200 執行個體中的每個 NVIDIA Blackwell GPU 都配備了第二代 Transformer Engine,並支援 FP4 等新的精度格式。它支援第五代 NVLink,這是一種更快速、更寬廣的互連,每個 GPU 可提供高達 1.8 TBp/s 的頻寬。

Grace Blackwell 超級晶片是 P6e-GB200 的關鍵元件,它使用 NVIDIA NVLink-C2C 互連技術連線兩個高效能 NVIDIA Blackwell GPU 和一個 NVIDIA Grace CPU。每個超級晶片可提供 10 PB 的 FP8 運算 (無稀疏化處理) 和高達 372 GB 的 HBM3e。藉助超級晶片架構,2 個 GPU 和 1 個 CPU 位於同一個運算模組中,與當前一代 P5en 執行個體相比,GPU 和 CPU 之間的頻寬提高一個數量級。

與 P6-B200 執行個體相比,為 P6-B300 執行個體提供支援的 NVIDIA Blackwell Ultra GPU 可將網路頻寬提高 2 倍,GPU 記憶體提高 1.5 倍,並將有效 TFLOPS 的 FP4 運算效能 (無稀疏化處理) 提高高達 1.5 倍。

P6e-GB300 UltraServer 中使用的 Grace Blackwell 超級晶片將兩個 NVIDIA Blackwell Ultra GPU 與一個 NVIDIA Grace CPU 連線,可提供 1.5 倍的 GPU 記憶體和高達 1.5 倍的 FP4 運算改進 (無稀疏化處理)。

在 P6e UltraServer 和 P6 執行個體中,每個 GPU 提供 400 GB/s 的 EFAv4 網路頻寬,每個 P6e-GB200 UltraServer 的總頻寬為 28.8 Tbps,每個 P6-B200 執行個體的總頻寬為 3.2 Tbps。

P6-B300 執行個體提供 6.4 Tbps 的聯網頻寬,是 P6-B200 執行個體的 2 倍 (得益於 PCIe Gen6),並且專為大規模分散式深度學習模型訓練而設計。

P6e UltraServer 和 P6 執行個體支援 Amazon FSx for Lustre 檔案系統,因此您可以按數百 GBp/s 的輸送量和數百萬 IOPS 存取資料,滿足大規模 AI 訓練和推論的需求。P6e UltraServer 支援高達 405 TB 的本機 NVMe SSD 儲存,而 P6 執行個體支援高達 30 TB 的本機 NVMe SSD 儲存,以便快速存取大型資料集。您也可以透過 Amazon Simple Storage Service (Amazon S3) 使用幾乎無限制且具成本效益的儲存空間。

產品詳細資訊

執行個體類型

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
Instance storage (TB)
Network bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
p6-b300.48xlarge

8 Ultra

2,144 HBM3e

192

4,096

8 x 3.84

6.4

100

p6-b200.48xlarge

8

1,432 HBM3e

192

2,048

8 x 3.84

3.2

100

p6e-gb200.36xlarge

4

740 HBM3e

144

960

3 x 7.5

3.2

60

是*

*P6e-GB200 執行個體僅適用於 UltraServer

UltraServer 類型

Instance Size
Blackwell GPUs
GPU memory (GB)
vCPUs
System memory (GiB)
UltraServer Storage (TB)
Aggregate EFA bandwidth (Gbps)
EBS bandwidth (Gbps)
Available in EC2 UltraServers
u-p6e-gb200x72

72

13,320

2,592

17,280

405

28٬800

1,080

u-p6e-gb200x36

36

6,660

1,296

8٬640

202.5

14,400

540

ML 使用案例入門

Amazon SageMaker AI 是一項全受管服務,可用來建置、訓練和部署機器學習 (ML) 模型。透過 Amazon SageMaker HyperPod,您可以更輕鬆地擴展到數十、數百或數千個 GPU,以快速訓練任何規模的模型,而無需擔心設定和管理具有恢復能力的訓練叢集。(P6e-GB200 支援即將推出)

AWS Deep Learning AMI (DLAMI) 為 DL 從業人員和研究人員提供基礎設施和各種工具,以加速雲端中各種規模的 DL 工作。 AWS Deep Learning Containers 是連同 DL 架構一併預先安裝的 Docker 映像檔,讓您可以略過從頭建置及最佳化環境的複雜流程,更輕鬆地部署自訂 ML 環境。

如果您偏好透過容器協同運作服務來管理自己的容器化工作負載,則可以使用 Amazon Elastic Kubernetes Service (Amazon EKS) 或 Amazon Elastic Container Service (Amazon ECS) 部署 P6e-GB200 UltraServer 和 P6-B200 執行個體。

P6e UltraServer 也將透過 NVIDIA NVIDIA DGX Cloud 提供,這是一個完全受管的環境,配備了 NVIDIA 的完整 AI 軟體堆疊。藉助 NVIDIA DGX Cloud,您可以取得 NVIDIA 的最新最佳化、基準測試方法和技術專業知識。

進一步了解

找到今天所需的資訊了嗎?

讓我們知道,以便我們改善頁面內容的品質