為什麼選擇 Amazon EC2 P5 執行個體?
採用 NVIDIA H100 Tensor Core GPU 的 Amazon Elastic Compute Cloud (Amazon EC2) P5 執行個體,以及採用 NVIDIA H200 Tensor Core GPU 的 P5e 和 P5en 執行個體,可在 Amazon EC2 中提供最高效能,供深度學習 (DL) 和高效能運算 (HPC) 應用程式使用。與上一代的 GPU 型 EC2 執行個體相比,此執行個體可讓您以快 4 倍的時間找出解決方案,且訓練 ML 模型的成本可降低達 40%。這些執行個體可協助您以更快的步調反覆運作解決方案,並加速上市時程。您可以使用 P5、P5e 和 P5en 執行個體來訓練及部署日趨複雜的大型語言模型 (LLM) 和擴散模型,為需求最嚴苛的生成式人工智慧 (AI) 應用提供支援。這些應用包括問題回答、程式碼產生、影片和影像產生和語音識別。您也可以使用這些執行個體大規模部署需求嚴苛的 HPC 應用程式,包括製藥探索、地震分析、天氣預報和財務模型等領域。
為了提供這些效能改進並節省成本,P5 和 P5e 執行個體搭載 NVIDIA H100 和 H200 Tensor Core GPU,相較於上一代的 GPU 型執行個體,CPU 效能和系統記憶體都高出 2 倍,本機儲存空間則多出 4 倍。P5en 執行個體將 NVIDIA H200 Tensor Core GPU 與高效能 Intel Sapphire Rapids CPU 搭配使用,並在 CPU 和 GPU 之間啟用 Gen5 PCIe。與 P5e 和 P5 執行個體相比,P5en 執行個體的 CPU 和 GPU 之間的頻寬最高提升 4 倍,網路延遲也更低,進而改善分散式訓練效能。P5 和 P5e 執行個體透過第二代 Elastic Fabric Adapter (EFA) 提供高達 3,200 Gbps 的網路速度。使用 Nitro v5 和第三代 EFA 的 P5en 執行個體,與使用前一代 EFA 和 Nitro 的 P5 執行個體相比,延遲最多降低 35%。這有助於提升分散式訓練工作負載的集體通訊效能,例如深度學習、生成式 AI、即時資料處理和高效能運算 (HPC) 應用程式。為了以低延遲提供大規模運算,這些執行個體部署在 Amazon EC2 UltraClusters 中,可擴展至 20,000 個 H100 或 H200 GPU,並以 PB 級無阻塞網路互連。EC2 UltraClusters 中的 P5、P5e 和 P5en 執行個體可以提供多達 20 個 exaflop 的彙總運算能力,效能相當於超級電腦。
Amazon EC2 P5 執行個體
優勢
功能
客戶見證
以下是客戶和合作夥伴如何透過 Amazon EC2 P4 執行個體實現業務目標的範例。
-
Anthropic
Anthropic 建置了可靠、可解釋和可操縱的 AI 系統,這將提供很多為商業和公共利益創造價值的機會。
在 Anthropic,我們努力打造可靠、可解釋且可操縱的 AI 系統。雖然當今的大型通用 AI 系統可能擁有明顯優勢,但也有可能是不可預測、不可靠且不透明的。我們的目標是在這些議題上取得進展,並部署人們覺得有用的系統。我們的組織是世界上少數在 DL 研究領域建置基礎模型的組織之一。這些模型非常複雜,且為了開發和訓練這些尖端模型,我們必須有效地將其分散到大型 GPU 叢集間。現今,我們廣泛使用 Amazon EC2 P4 執行個體,對於 P5 執行個體的推出我們感到非常興奮。我們期望它們會比 P4d 執行個體提供顯著的價格效能優勢,並且將大規模提供,用以建置下一代 LLM 和相關產品。
Anthropic 共同創辦人 Tom Brown -
Cohere
Cohere 是語言 AI 的領導先驅,使每個開發人員和企業都能使用領先全球的自然語言處理 (NLP) 技術打造絕佳產品,同時保持其資料隱私和安全性
Cohere 率先協助每個企業運用語言 AI 的力量,以自然而直觀的方式探索、產生、搜尋資訊並據以採取行動,在多個雲端平台間部署於最適合每個客戶的資料環境。採用 NVIDIA H100 的 Amazon EC2 P5 執行個體將透過其運算能力結合 Cohere 最先進的 LLM 和生成式 AI 功能,讓企業能夠更快地建立、成長和擴展。
Cohere 執行長 Aidan Gomez -
Hugging Face
Hugging Face 正著手將良好的 ML 大眾化。
作為 ML 領域成長最快速的開放原始碼社群,我們目前在平台上提供了超過 150,000 種預先訓練的模型和 25,000 個資料集,用於 NLP、電腦視覺、生物學、強化學習等等。隨著 LLM 和生成式 AI 的重大進展,我們與 AWS 合作共創未來的開放原始碼模型。我們期待透過 Amazon SageMaker 在搭配 EFA 的 UltraClusters 中大規模使用 Amazon EC2 P5 執行個體,更快速地為眾人提供新的基礎 AI 模型。
Hugging Face CTO 暨共同創辦人 Julien Chaumond
產品詳細資訊
執行個體大小 | vCPU | 執行個體記憶體 (TiB) | GPU | GPU 記憶體 | 網路頻寬 (Gbps) | GPUDirect RDMA | GPU 端對端 | 執行個體儲存體 (TB) | EBS 頻寬 (Gbps) |
---|---|---|---|---|---|---|---|---|---|
p5.48xlarge | 192 | 2 | 8 H100 | 640 GB HBM3 |
3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 x 3.84 NVMe SSD | 80 |
p5e.48xlarge | 192 | 2 | 8 H200 | 1128 GB HBM3e |
3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 x 3.84 NVMe SSD | 80 |
p5en.48xlarge | 192 | 2 | 8 H200 | 1128 GB HBM3e | 3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 x 3.84 NVMe SSD | 100 |
ML 使用案例入門
HPC 使用案例入門
P5、P5e 和 P5en 執行個體是執行工程模擬、運算金融、地震分析、分子建模、基因體、轉譯和其他 GPU 型 HPC 工作負載的理想平台。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。這三種執行個體全都支援 EFA,可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS Batch 和 AWS ParallelCluster 可協助 HPC 開發人員能迅速建置並擴展分散式 HPC 應用程式。
進一步了解