Amazon EC2 P4 執行個體
雲端最高效能的機器學習 (ML) 訓練和 HPC 應用程式
Amazon EC2 P4d 執行個體在雲端提供最高效能的機器學習 (ML) 訓練和高效能運算 (HPC) 應用程式。P4d 執行個體採用最新的 NVIDIA A100 Tensor Core GPU,提供領先業界的高輸送量和低延遲聯網。 這類執行個體是雲端中率先支援 400 Gbps 執行個體聯網者。P4d 執行個體能使訓練機器學習 (ML) 模型的成本降低高達 60%,包括與上一代 P3 和 P3dn 執行個體相較,深度學習模型的效能平均提高 2.5 倍。
Amazon EC2 P4d 執行個體是部署在名為 EC2 UltraClusters 的超大規模叢集,其中包含雲端效能最高的運算、聯網和儲存功能。每個 EC2 UltraCluster 各為世界最強大之一的超級電腦,讓客戶能夠執行最複雜的多節點機器學習 (ML) 訓練和分散式 HPC 工作負載。客戶能依照其在於機器學習 (ML) 或 HPC 專案的需求,將 EC2 UltraClusters 中的 NVIDIA A100 GPU 輕鬆地從數個擴展為數千個。
研究員、資料科學家和開發人員能利用 P4d 執行個體以訓練機器學習 (ML) 模型,運用於各種使用案例,例如自然語言處理、物體偵測和分類,以及推薦引擎,也能執行 HPC 應用程式,例如發現藥品、地震分析和財務塑型。與內部部署系統不同,客戶能存取幾乎無限的運算與儲存容量、依照商業需要擴展基礎設施,幾分鐘內啟動多節點機器學習 (ML) 訓練任務或緊密耦合的分散式 HPC 應用程式,且毫無設定或維護成本。
對於 EC2 UltraClusters 有疑問或需要協助嗎?
使用 EC2 P4d UltraClusters 的大規模機器學習 (ML) 訓練和 HPC
P4d 執行個體的 EC2 UltraClusters 能將高效能運算、聯網和儲存功能結合,成為世界最強大的超級電腦之一。每個 P4d 執行個體的 EC2 UltraCluster 各包含 4,000 餘個最新 NVIDIA A100 GPU、PB 規模的非阻攔式聯網基礎設施,和 FSx for Lustre 的高輸送量的低延遲儲存。任何機器學習 (ML) 開發人員、研究員或資料科學家都能啟動 EC2 UltraClusters 中的 P4d 執行個體,實施依用量計費的使用模型來取用超級電腦等級的效能,執行其最複雜的多節點機器學習 (ML) 訓練和 HPC 工作負載。
對於 EC2 UltraClusters 若有疑問或需要協助,請求協助。

僅於部分區域提供。關於支援的區域如需資訊,以及對於 EC2 UltraClusters 如需其他資訊,請聯絡我們。
優勢
將機器學習 (ML) 訓練時間從幾天縮短到幾分鐘
使用最新一代 NVIDIA A100 Tensor Core GPU,與上一代 P3 執行個體相較,Amazon EC2 P4d 執行個體平均各能提升 2.5 倍的深度學習效能。P4d 執行個體的 EC2 UltraClusters 可供取用超級電腦級的效能而無須投入前期成本或長期承諾,讓每位開發人員、資料科學家和研究員都能執行最複雜的機器學習 (ML) 和 HPC 工作負載。使用 P4d 執行個體所縮短的訓練時間能提升生產力,讓開發人員能專心執行將機器學習 (ML) 智慧建置成為商業應用程式的核心任務。
高效率執行最複雜的多節點機器學習 (ML) 訓練
使用 P4d 執行個體的 EC2 UltraClusters,開發人員能夠無縫擴展至多達數千個 GPU。高輸送量、低延遲的聯網功能,支援 400 Gbps 執行個體聯網、Elastic Fabric Adapter (EFA) 和 GPUDirect RDMA 技術,利用水平擴展/分散式技術,協助迅速地訓練機器學習 (ML) 模型。Elastic Fabric Adapter (EFA) 使用 NVIDIA Collective Communications Library (NCCL) 擴展為數千個 GPU,並有 GPUDirect RDMA 技術能啟用 P4d 執行個體之間低延遲的 GPU 與 GPU 通訊。
降低機器學習 (ML) 訓練和 HPC 的基礎設施成本
與 P3 執行個體相較,Amazon EC2 P4d 執行個體訓練機器學習 (ML) 模型的成本能降低多達 60%。此外,P4d 執行個體能作為 Spot 執行個體購買。Spot 執行個體能善用未使用的 EC2 執行個體容量,大幅降低您的 Amazon EC2 成本,比隨需價格節省高達 90% 的費用。因使用 P4d 執行個體能將機器學習 (ML) 訓練成本降低,預算可重新分配,以在商業應用程式中建置更多機器學習 (ML) 智慧。
輕鬆以 AWS 服務開始使用和擴充
深度學習 AMI 與 Deep Learning Containers 因為含有所需的深度學習架構程式庫和工具,可在幾分鐘內輕鬆部署 P4d 深度學習環境。您也可輕鬆將本身的程式庫和工具加入至這些映像。P4d 執行個體可支援常用機器學習 (ML) 架構,例如 TensorFlow、PyTorch 和 MXNet。此外,主要 AWS 服務可支援 Amazon EC2 P4d 執行個體的機器學習 (ML)、管理和協同運作,例如 Amazon SageMaker、Amazon Elastic Kubernetes Service (EKS)、Amazon Elastic Container Service (ECS)、AWS Batch 和 AWS ParallelCluster。
特色
採用 NVIDIA A100 Tensor Core GPU 技術
NVIDIA A100 Tensor Core GPU 可為機器學習 (ML) 和高效能運算 (HPC) 提供無人能及的大規模加速。NVIDIA A100 的第三代 Tensor Cores 能加快每一項精準工作負載,加快得到洞察和上市的時間。與上一代 V100 GPU 相較,各個 A100 GPU 提供超過 2.5 倍的運算效能,並附有 40 GB HBM2 (P4d 執行個體) 或 80 GB HBM2e (P4de 執行個體) 的高效能 HBM2 GPU 記憶體。較高 GPU 記憶體特別有利於那些在高解析度資料的大型資料集上訓練的工作負載。NVIDIA A100 GPU 可利用 NVSwitch GPU 的互連輸送量,因此每個 GPU 可以以相同的 600GB/s 雙向輸送量和單躍延遲與同一個執行個體內的每個其他 GPU 通訊。
高效能聯網
P4d 執行個體提供 400 Gbps 聯網功能,以 P4d 執行個體之間、和 P4d 執行個體與儲存服務 (例如 Amazon S3 和 FSx for Lustre) 之間的的高輸送量聯網,協助客戶更有效地水平擴展其分散式工作負載 (例如多節點訓練)。Elastic Fabric Adapter (EFA) 是 AWS 為協助將機器學習 (ML) 和 HPC 應用程式擴展為數千個 GPU 而設計的自訂網路界面。為進一步降低延遲,EFA 與 NVIDIA GPUDirect RDMA 搭配,以 OS 旁路功能達成伺服器之間低延遲的 GPU 與 GPU 通訊。
高輸送量、低延遲的儲存空間
客戶能以 FSx for Lustre 存取 PB 規模的高輸送量、低延遲儲存空間,或以 Amazon S3 的 400 Gbps 速度存取幾乎無限的經濟實惠儲存空間。對於需要快速存取大型資料集的工作負載,各 P4d 執行個體也包括 8TB 的 NVMe 型 SSD 儲存與每秒 16 GB 的讀取輸送量。
建立在 AWS Nitro System 之上
P4d 執行個體建立在 AWS Nitro System 之上,這是一個豐富的建置區塊集合,可將許多傳統的虛擬化功能卸載到專用的硬體和軟體,以提供高效能、高可用性和高安全性,還能降低虛擬化的額外負荷。
客戶案例

Toyota Research Institute (TRI) 創立於 2015 年,致力於為 Toyota 開發自動駕駛、機器人和其他人力擴增技術。
TRI 基礎設施工程部技術總監 Mike Garrison 指出,「TRI 正在努力打造人人都能享有移動自由的未來。」他並說道:「上一代 P3 執行個體協助我們將訓練機器學習模型的時間從數日縮短為數小時,現在也期待利用 P4d 執行個體作為更多 GPU 記憶體和更高效的浮點格式,能讓我們的機器學習團隊以還要更快的速度訓練更加複雜的模型。」

TRI-AD 自動駕駛 (辨識) 總監 Junya Inada 表示,「TRI-AD 正在努力開創美好未來,讓每個人都能享有移動和探索的自由,並且大力發展自適應駕駛和智慧城市的技術,以減少車禍傷亡。透過使用 Amazon EC2 P4d 執行個體,相較於上一代 GPU 執行個體,我們做到現有程式碼絲毫未改之下,將辨識物體的訓練時間縮短 40%。」
TRI-AD 基礎設施工程部資深總監 Jack Yan 說道:「透過採用 Amazon EC2 P4d 執行個體,與上一代 GPU 執行個體相較,我們立即降低了訓練成本,同時也增加進行模型訓練的團隊數目。P4d 的聯網功能提升,允許我們高效擴展至數十個執行個體,因而具備可觀的敏捷性,能迅速優化、重新訓練和部署測試車輛或模擬環境內的模型,以便進一步測試。」

GE Healthcare 是領先全球的醫療技術與數位解決方案創新業者。GE Healthcare 讓臨床醫師透過其 Edison 智慧平台支援的智慧裝置、資料分析、應用程式與服務,更快作出有所本的決定。
人工智慧部總裁兼總經理 Karley Yoder 表示,「GE Healthcare 為臨床醫師提供工具以協助其彙總資料、對資料套用 AI 和分析,發掘洞察知見,提升病患的結果,提高效率,免於出錯。」他並指出,「我們的醫療成像裝置會產成大量資料,需請我們的資料科學家處理。以先前的 GPU 叢集,得花數日時間才能完成複雜 AI 模型 (例如 Progressive GAN) 的訓練,用以模擬和檢視結果。使用新的 P4d 執行個體,能將處理時間從數日縮短為數小時。我們見到映像大小各異的訓練模型有快兩到三倍的速度,同時也提高效能,包括批次大小增加、生產力提高,以及模型開發週期加快。」
.1423e4372be1d9da0d8bc14e12566a8c5f996091.png)
HEAVY.AI 是加速分析的先驅。HEAVY.AI 平台受到企業和政府採用,以超越主流分析工具的限制,從資料獲取洞察知見。
HEAVY.AI 的美國公部門副總裁 Ray Falcione 說明,「在 HEAVY.AI,我們正在努力打造未來,好讓資料科學與分析融合,以將資料孤島瓦解並且整合。客戶正在利用其中可能包含位置和時間的龐大資料以窺知全貌;透過空間時間資料的精密視覺化,所能了解的不僅只有目前發生的情形,也包括時間與地點。以我們的技術,能夠見樹又見林。」他並表示,「透過使用 Amazon EC2 P4d 執行個體,與上一代 GPU 執行個體相較,我們部署平台的成本大幅降低,因此能夠經濟實惠地擴展大規模資料集。A100 的聯網功能提升,使我們擴展為數十億資料行的效率提高,也讓客戶蒐集洞察資訊的速度更快。」

Zenotech Ltd 透過使用 HPC Clouds 遞送隨需使用授權模型,加上利用 GPU 可享的極高效能優勢,正在改寫線上工程設計的樣貌。
Zenotech 總監 Jamil Appa 表示,「Zenotech 正在開發工具,讓工程師能創造出更高效,且對環境友善的產品。我們跨越行業經營,我們的工具也透過大規模模擬提供更高的產品效能洞察力。」他並指出:「使用 AWS P4d 執行個體之下,與上一代 GPU 相較,我們的模擬速度快了 3.5 倍。如此一來,我們的解答時間明顯加快,客戶能夠夠快讓設計上市,或是執行比先前保真度更高的模擬。」

Aon 是一大全球專業服務公司,提供廣泛的風險、退休與保健解決方案。Aon PathWise 是 GPU 型且可擴展的 HPC 風險管理解決方案,可供保險公司和再保公司、銀行和退休基金用以因應當今的重要挑戰,例如對沖策略測試、規管與經濟預測,和預算編列。
PathWise Solutions Group 總裁兼執行長 Peter Phillips 表示,「PathWise Solutions Group LLC 的產品可讓保險公司、再保險公司和退休基金取用新世代技術以迅速解決現今面臨的重要保險相關挑戰,例如機器學習、對沖策略測試、規管與金融報告、商業規劃與經濟預測,以及新產品開發和定價。」 他並指出:「透過採用 Amazon EC2 P4d 執行個體,對於大多數困難的計算,我們在單與雙精度的計算速度方面較上一代 GPU 執行個體作出卓越的提升,讓客戶首度能夠執行全新計算範圍和預測。速度是關鍵。」Phillips 補充道:「我們能持續為客戶帶來可觀價值和最新技術,AWS 新執行個體是一大功臣。」

由放射科與 AI 專家組成的 Rad AI 建置能使放射科醫生達到最高生產力的產品,最終使得醫療保健的利用更加普及,並且提升病患的結果。
Rad AI 共同創辦人 Doktor Gurson表示:「Rad AI 以讓世人更易於享有醫療保健,同時提高醫療保健品質作為使命。專精於醫療成像工作流程的 Rad AI 為放射科醫生節省時間、減少過勞,並且提高準確度。」他並說明,「我們使用 AI 將放射科工作流程自動化,協助精簡放射科的報告程序。利用新的 EC2 P4d 執行個體,比起前代 P3 執行個體,我們的推論速度加快,並能以快 2.4 倍的速度訓練模型,同時準確度更高。如此一來,可更快、更準確地作出診斷,我們遍布全美的客戶所提供的高品質放射科服務也更擴大服務範圍。」
產品詳細資訊
執行個體大小 | vCPU | 執行個體記憶體 (GiB) | GPU – A100 | GPU 記憶體 | 網路頻寬 (Gbps) | GPUDirect RDMA | GPU 端對端 | 執行個體儲存體 (GB) | EBS 頻寬 (Gbps) | 隨需價格/小時 | 1 年預留執行個體實際小時費率* | 3 年預留執行個體實際小時費率* |
---|---|---|---|---|---|---|---|---|---|---|---|---|
p4d.24xlarge | 96 | 1152 | 8 | 320 GB HBM2 |
400 ENA 和 EFA | 是 | 600 GB/s NVSwitch | 8 x 1000 NVMe SSD | 19 | 32.77 USD | 19.22 USD | 11.57 USD |
p4de.24xlarge (預覽版) | 96 | 1152 | 8 | 640 GB HBM2e |
400 ENA 和 EFA | 是 | 600 GB/s NVSwitch | 8 x 1000 NVMe SSD | 19 | 40.96 USD | 24.01 USD | 14.46 USD |
Amazon EC2 P4d 執行個體可在美國東部 (維吉尼亞北部和俄亥俄)、美國西部 (奧勒岡)、歐洲 (愛爾蘭和法蘭克福) 以及亞太區域 (東京和首爾) 等區域使用,Amazon EC2 P4de 執行個體可在 AWS 美國東部 (維吉尼亞北部) 和美國西部 (奧勒岡) 等區域使用。
客戶能以隨需執行個體、預留執行個體、Spot 執行個體及專用執行個體或作為 Savings Plan 之部分等形式購買 P4d 和 P4de 執行個體。
開始使用 Amazon EC2 P4d 執行個體進行機器學習
使用 Amazon SageMaker
使用 AWS 深度學習 AMI 或 Deep Learning Containers
使用 Amazon Elastic Kubernetes Service (EKS) 或 Elastic Container Service (ECS)
開始使用 Amazon EC2 P4d 執行個體進行高效能運算
Amazon EC2 P4d 執行個體是執行工程模擬、計算金融、地震分析、分子建模、基因體、轉譯和其他 GPU 型高效能運算 (HPC) 工作負載的理想平台。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。P4d 執行個體支援 Elastic Fabric Adapter (EFA),可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS Batch 和 AWS ParallelCluster 讓 HPC 開發人員能迅速建置並擴展分散式 HPC 應用程式。