- Amazon EC2›
- 執行個體類型›
- P5 執行個體
為什麼選擇 Amazon EC2 P5 執行個體?
採用 NVIDIA H100 Tensor Core GPU 的 Amazon Elastic Compute Cloud (Amazon EC2) P5 執行個體,以及採用 NVIDIA H200 Tensor Core GPU 的 P5e 和 P5en 執行個體,可在 Amazon EC2 中提供高效能,供深度學習 (DL) 和高效能運算 (HPC) 應用程式使用。與上一代的 GPU 型 EC2 執行個體相比,此執行個體可讓您以快 4 倍的時間找出解決方案,且訓練 ML 模型的成本可降低達 40%。這些執行個體可協助您以更快的步調反覆運作解決方案,並加速上市時程。您可以使用 P5、P5e 和 P5en 執行個體來訓練及部署複雜的大型語言模型 (LLM) 與擴散模型,為生成式 AI 應用程式提供支援。這些應用包括問題回答、程式碼產生、影片和影像產生和語音識別。您也可以使用這些執行個體大規模部署 HPC 應用程式,包括製藥探索、地震分析、天氣預報和財務模型等領域。
為了提供這些效能改進並節省成本,P5 和 P5e 執行個體搭載 NVIDIA H100 和 H200 Tensor Core GPU,相較於上一代的 GPU 型執行個體,CPU 效能和系統記憶體都高出 2 倍,本機儲存空間則多出 4 倍。P5en 執行個體將 NVIDIA H200 Tensor Core GPU 與高效能 Intel Sapphire Rapids CPU 搭配使用,並在 CPU 和 GPU 之間啟用 Gen5 PCIe。與 P5e 和 P5 執行個體相比,P5en 執行個體的 CPU 和 GPU 之間的頻寬最高提升 4 倍,網路延遲也更低,進而改善分散式訓練效能。P5 和 P5e 執行個體透過第二代 Elastic Fabric Adapter (EFA) 提供高達 3,200 Gbps 的網路速度。使用 Nitro v5 和第三代 EFA 的 P5en 執行個體,與使用前一代 EFA 和 Nitro 的 P5 執行個體相比,延遲最多降低 35%。這有助於提升分散式訓練工作負載的集體通訊效能,例如深度學習、生成式 AI、即時資料處理和高效能運算 (HPC) 應用程式。為了以低延遲提供大規模運算,這些執行個體部署在 Amazon EC2 UltraClusters 中,可擴展至 20,000 個 H100 或 H200 GPU,並以 PB 級無阻塞網路互連。EC2 UltraClusters 中的 P5、P5e 和 P5en 執行個體可以提供多達 20 個 exaflop 的彙總運算能力,效能相當於超級電腦。
Amazon EC2 P5 執行個體
優勢
P5、P5e 和 P5en 執行個體可大規模訓練大型生成式 AI 模型,且提供的效能是上一代 GPU EC2 執行個體的 4 倍。
P5、P5e 和 P5en 執行個體可將訓練時間和解決方案產生時間從數週縮短為數天。這有助於您以更快的速度反覆運作,並加速上市時程。
與上一代 GPU 型 EC2 執行個體相比,P5、P5e 和 P5en 執行個體可節省高達 40% 的 DL 訓練和 HPC 基礎架構成本。
P5、P5e 和 P5en 執行個體提供高達 3,200 Gbps 的 EFA 網路速度。這些執行個體部署在 EC2 UltraCluster 中,並提供 20 個 exaflop 的彙總運算能力。
功能
P5 執行個體提供高達 8 個 NVIDIA H100 GPU,每個執行個體總共最多 640 GB 的 HBM3 GPU 記憶體。P5e 和 P5en 執行個體提供高達 8 個 NVIDIA H200 GPU,每個執行個體總共最多 1128 GB 的 HBM3e GPU 記憶體。這兩個執行個體都支援高達 900 GB/s 的 NVSwitch GPU 互連 (每個執行個體共 3.6 TB/s 的對分頻寬),因此,每個 GPU 都可在單跳延遲下與同一執行個體中的所有其他 GPU 通訊。
NVIDIA H100 和 H200 GPU 具有轉換引擎,該引擎可進行智慧管理並在 FP8 和 16 位元計算之間動態選擇。相較於上一代 A100 GPU,此功能有助於在 LLM 上提供更快的 DL 訓練速度。對於 HPC 工作負載,NVIDIA H100 和 H200 GPU 具有新的 DPX 指令,動態程式設計演算法比 A100 GPU 更為快速。
P5、P5e 和 P5en 執行個體提供高達 3,200 Gbps 的 EFA 網路速度。EFA 也與 NVIDIA GPUDirect RDMA 搭配,以作業系統旁路功能達成伺服器之間低延遲的 GPU 與 GPU 通訊。
P5、P5e 和 P5en 執行個體支援 Amazon FSx for Lustre 檔案系統,讓您可在大規模的 DL 和 HPC 工作負載所需的數百 GB/s 輸送量和數百萬的 IOPS 下存取資料。每個執行個體還支援高達 30 TB 的本機 NVMe SSD 儲存,以實現對大型資料集的快速存取。您也可以透過 Amazon Simple Storage Service (Amazon S3) 使用幾乎無限制且具成本效益的儲存空間。
客戶見證
以下是客戶和合作夥伴如何透過 Amazon EC2 P4 執行個體實現業務目標的範例。
Anthropic
在 Anthropic,我們努力打造可靠、可解釋且可操縱的 AI 系統。雖然當今的大型通用 AI 系統可能擁有明顯優勢,但也有可能是不可預測、不可靠且不透明的。我們的目標是在這些議題上取得進展,並部署人們覺得有用的系統。我們的組織是世界上少數在 DL 研究領域建置基礎模型的組織之一。這些模型非常複雜,且為了開發和訓練這些尖端模型,我們必須有效地將其分散到大型 GPU 叢集間。現今,我們廣泛使用 Amazon EC2 P4 執行個體,對於 P5 執行個體的推出我們感到非常興奮。我們期望它們會比 P4d 執行個體提供顯著的價格效能優勢,並且將大規模提供,用以建置下一代 LLM 和相關產品。
AON
在 AON,我們正徹底革新保險公司因應複雜運算挑戰的方式。精算預測需要更多模擬來為複雜的財務風險與保證建模,但彼此分散的舊式系統與容易出錯的人工流程,限制了深入且嚴謹的分析。Amazon EC2 P5 執行個體為我們帶來了顛覆性的改變。我們現在可以在短短數小時內,完成過去需要數天才能跑完的機器學習模型與經濟預測作業。使用單一 H100 GPU 執行個體 (p5.4xlarge) 的功能,不僅為我們節省了時間,也讓運算資源運用更加最佳化。多虧了這項突破性技術,我們的客戶正以前所未有的深度洞察風險管理與產品定價。
Van Beach,AON 全球人壽解決方案主管
Cohere
Cohere 率先協助每個企業運用語言 AI 的力量,以自然而直觀的方式探索、產生、搜尋資訊並據以採取行動,在多個雲端平台間部署於最適合每個客戶的資料環境。採用 NVIDIA H100 的 Amazon EC2 P5 執行個體將透過其運算能力結合 Cohere 最先進的 LLM 和生成式 AI 功能,讓企業能夠更快地建立、成長和擴展。
Hugging Face
作為 ML 領域成長最快速的開放原始碼社群,我們目前在平台上提供了超過 150,000 種預先訓練的模型和 25,000 個資料集,用於 NLP、電腦視覺、生物學、強化學習等等。隨著 LLM 和生成式 AI 的重大進展,我們與 AWS 合作共創未來的開放原始碼模型。我們期待透過 Amazon SageMaker 在搭配 EFA 的 UltraClusters 中大規模使用 Amazon EC2 P5 執行個體,更快速地為眾人提供新的基礎 AI 模型。
產品詳細資訊
|
Instance Size
|
vCPUs
|
Instance Memory
|
GPU
|
GPU memory
|
Network Bandwidth (Gbps)
|
GPUDirect RDMA
|
GPU Peer to Peer
|
Instance Storage (TB)
|
EBS Bandwidth (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p5.4xlarge
|
16 |
256 GiB |
1 H100 |
80 GB HBM3 |
100 Gbps EFA |
否* |
無* |
3.84 NVMe SSD |
10 |
|
p5.48xlarge
|
192
|
2 TiB |
8 H100
|
640 GB
HBM3 |
3200 Gbps EFA
|
是
|
900 GB/s NVSwitch
|
8 x 3.84 NVMe SSD
|
80
|
|
p5e.48xlarge
|
192
|
2 TiB |
8 H200
|
1128 GB
HBM3e |
3200 Gbps EFA
|
是
|
900 GB/s NVSwitch
|
8 x 3.84 NVMe SSD
|
80
|
|
p5en.48xlarge
|
192
|
2 TiB |
8 H200
|
1128 GB HBM3e
|
3200 Gbps EFA
|
是
|
900 GB/s NVSwitch
|
8 x 3.84 NVMe SSD
|
100
|
*P5.4xlarge 中不支援 GPUDirect RDMA
ML 使用案例入門
SageMaker 是一項全受管服務,可用來建置、訓練和部署 ML 模型。透過 SageMaker HyperPod,您可以更輕鬆地擴展到數十、數百或數千個 GPU,以快速訓練任何規模的模型,而無需擔心設定和管理具有恢復能力的訓練叢集。
DLAMI 為 ML 從業人員和研究人員提供基礎設施和各種工具,以加速雲端中各種規模的 DL 工作。 Deep Learning Containers 是連同 DL 架構一併預先安裝的 Docker 映像檔,讓您可以略過從頭建置及最佳化環境的複雜流程,更輕鬆地部署自訂 ML 環境。
如果您偏好透過容器協同運作服務管理自己的容器化工作負載,可以使用 Amazon EKS 或 Amazon ECS 部署 P5、P5e 和 P5en 執行個體。
HPC 使用案例入門
P5、P5e 和 P5en 執行個體是執行工程模擬、運算金融、地震分析、分子建模、基因體、轉譯和其他 GPU 型 HPC 工作負載的理想平台。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。這三種執行個體全都支援 EFA,可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS Batch 和 AWS ParallelCluster 可協助 HPC 開發人員能迅速建置並擴展分散式 HPC 應用程式。