Amazon EC2 P3 執行個體

使用強大的 GPU 來加速機器學習和高效能運算應用程式

Amazon EC2 P3 執行個體提供雲端高效能運算,最多可使用 8 個 NVIDIA® V100 Tensor Core GPU,網路輸送量最高可達 100 Gbps,可使用於機器學習和 HPC 應用。每一部執行個體最高可提供 1 PFLOPS 的混合精度效能,能大幅加快機器學習和高效能運算應用程式的速度。Amazon EC2 P3 執行個體已證實可將機器學習的訓練時間從幾天縮短到幾分鐘,並可將高效能計算完成的模擬次數增加 3 到 4 倍。
Amazon EC2 P3dn.24xlarge 執行個體是 P3 系列的最新成員,網路頻寬是 P3.16xlarge 執行個體的 4 倍,而且是針對分散式機器學習和 HPC 應用進行優化。這些執行個體可提供最高 100 Gbps 的網路輸送量,96 個自訂 Intel® Xeon® Scalable (Skylake) vCPU,8 個具有 32 GB 記憶體的 NVIDIA® V100 Tensor Core GPU,以及 1.8 TB 的本機 NVMe 型 SSD 儲存。

推出 Amazon EC2 P3dn.24xlarge ─ 目前功能最強大的 P3 執行個體

已針對分散式機器學習訓練和高效能運算進行優化

ReInvent_HA_P3_EDITORIAL

優勢

將機器學習的訓練時間從幾天縮短到幾分鐘

對於需要加快 ML 應用程式的資料科學家、研究人員和開發人員,Amazon EC2 P3 執行個體是雲端中最快的。Amazon EC2 P3 執行個體最多擁有 8 個最新一代 NVIDIA V100 Tensor Core GPU,可提供最高 1 PFLOPS 的混合精度效能,能大幅加快 ML 工作負載的速度。更快速的模型訓練能讓資料科學家和機器學習工程師更快速地重複運算、訓練更多模型,以及提高準確性。

業界最經濟實惠的解決方案

雲端功能最強大的 GPU 執行個體之一,搭配靈活的定價計畫,產生了極其經濟實惠的機器學習訓練解決方案。P3 執行個體和 Amazon EC2 執行個體一樣,可提供隨需執行個體、預留執行個體或 Spot 執行個體等形式。Spot 執行個體利用未使用的 EC2 執行個體容量,最多可將 Amazon EC2 成本從隨需價格大幅降低 70%。

靈活且強大的高效能運算

與現場部署系統不同,在 Amazon EC2 P3 執行個體上執行高效能運算,可提供幾乎無限的容量來擴展您的基礎設施,還能根據工作負載需求的變化,輕鬆靈活地調動資源。您可以設定資源以滿足應用程式的需求,並在幾分鐘內啟動 HPC 叢集,而且只需按使用量付費。

與 AWS MACHINE LEARNING 服務整合

Amazon EC2 P3 執行個體可與 Amazon SageMaker 緊密搭配使用,提供功能強大且直覺式的完整機器學習平台。Amazon SageMaker 是一個全受管的機器學習平台,可讓您快速輕鬆地建立、訓練以及部署機器學習模型。此外,Amazon EC2 P3 執行個體可以和熱門的深度學習架構中已預先安裝的 AWS Deep Learning Amazon Machine Images (AMI) 整合。這樣可以讓您更快、更輕鬆地開始使用機器學習訓練和推論。

支援所有主要的機器學習架構

Amazon EC2 P3 執行個體支援所有主要的機器學習架構,包括 TensorFlow、PyTorch、Apache MXNet、Caffe、Caffe2、Microsoft Cognitive Toolkit (CNTK)、Chainer、Theano、Keras、Gluon 以及 Torch。您可以靈活地選擇最適合您的應用的架構。

可擴展的多節點機器學習訓練

您可以使用多部 Amazon EC2 P3 執行個體,最高 100 Gbps 的網路輸送量,快速地訓練機器學習模型。較大的聯網輸送量可讓開發人員克服數據傳輸瓶頸,並有效地在多部 P3 執行個體之間擴展模型訓練任務。客戶已經能夠使用 16 部 P3 執行個體,僅僅花了 18 分鐘就把常見的影像分類模型 ResNet-50 訓練到具有產業標準的準確性。先前大部分的 ML 客戶無法達到這種效能水準,因為這需要大筆的 CapEx 投資建立現場部署 GPU 叢集。有了 P3 執行個體及其隨需使用模式,目前所有的開發人員和機器學習工程師都能達到這樣的效能水準。

客戶案例

200x100_AirBNB_Logo

Airbnb 使用機器學習來優化搜尋建議,並為旅館老闆改進動態定價指南,這兩方面都可以轉化為更高的訂房轉換率。使用 Amazon EC2 P3 執行個體,Airbnb 可以更快速地執行訓練工作負載,重複進行更多次運算,建立更理想的機器學習模型,以及降低成本。

salesforce_logo_200x100

Salesforce 將機器學習運用在 Einstein Vision,讓開發人員能夠將影像辨識功能應用在視覺搜尋、品牌偵測和產品識別等使用案例。Amazon EC2 P3 執行個體可讓開發人員更快地訓練深度學習模型,以便更迅速地實現機器學習目標。

western-digital_200x100

Western Digital 使用高效能運算 (HPC),執行數以萬計的材料科學、熱流、磁性和資料傳輸模擬,以提高磁碟機和儲存解決方案的效能和品質。根據早期的測試,相較於之前部署的解決方案,Amazon EC2 P3 執行個體可讓工程團隊將執行模擬的速度提高至少三倍。 

schrodinger-200x100

Schrodinger 使用高效能運算 (HPC) 開發預測模型,以擴大探索和優化的規模,並讓我們的客戶能夠更快地將救命藥物推向市場。相較於 P2 執行個體,Amazon EC2 P3 執行個體可讓 Schrodinger 在一天內執行四倍的模擬。 

Amazon EC2 P3 執行個體和 Amazon SageMaker

訓練和執行機器學習模型最快的方法

Amazon SageMaker 是一種全受管服務,可用來建立、訓練和部署機器學習模型。與 Amazon EC2 P3 執行個體搭配使用時,客戶可以輕鬆擴展到數十、數百或數千個 GPU,這樣便能更快速地訓練任何規模的模型,無需擔心設定叢集和資料管道。您也可以輕鬆地存取用於訓練和託管 Amazon SageMaker 中工作流程的 Amazon Virtual Private Cloud (Amazon VPC) 資源。藉由這項功能,您可以使用只能透過 VPC 存取的 Amazon Simple Storage Service (Amazon S3) 儲存貯體來儲存訓練資料,以及存放和託管源於訓練程序的模型成品。除了 S3 之外,模型還可以存取包含於 VPC 內的所有其他 AWS 資源。進一步了解

建立

Amazon SageMaker 讓您輕鬆建立機器學習模型,並準備好進行訓練。它提供迅速連接到訓練資料,以及選擇和優化最適合您的應用的演算法和架構時所需要的一切。Amazon SageMaker 包含託管型 Jupyter 筆記本,方便您探索及視覺化存放在 Amazon S3 的訓練資料。  您也可以使用筆記本執行個體編寫程式碼來建立模型訓練任務、將模型部署到 Amazon SageMaker 託管,以及測試或驗證模型。

訓練

您只要在主控台按一下滑鼠或使用 API 呼叫就能開始訓練您的模型。Amazon SageMaker 已預先設定最新版本的 TensorFlow 和 Apache MXNet,並提供 CUDA9 程式庫支援以優化 NVIDIA GPU 效能。此外,超參數優化可以聰明地調整模型參數的不同組合,這樣便能自動調整模型,從而快速取得最準確的預測結果。對於較大規模的需求,您可以擴展到數十個執行個體以更快地建立模型。

部署

訓練結束後,您可以使用一鍵式部署,在多個可用區域之間將模型部署到自動調整規模的 Amazon EC2 執行個體。一旦投入生產,Amazon SageMaker 會使用內建的 Amazon CloudWatch 監控和記錄功能代您管理運算基礎設施,以執行運作狀態檢查、套用安全性修補程式,以及執行其他例行維護。

 

Amazon EC2 P3 執行個體和 AWS 深度學習 AMI

預先安裝的開發環境,快速開始建立深度學習應用程式

對於有更多自訂需求的開發人員,可使用 AWS 深度學習 AMI 代替 Amazon SageMaker,該 AMI 可為機器學習從業人員和研究人員提供各種基礎設施和工具,以加速雲端中各種規模的深度學習。您可以快速啟動已預先安裝的常用深度學習架構 (例如 TensorFlow、PyTorch、Apache MXNet、Microsoft Cognitive Toolkit、Caffe、Caffe2、Theano、Torch、Chainer、Gluon 和 Keras) 的 Amazon EC2 P3 執行個體,以訓練複雜的自訂 AI 模型、試驗新的演算法,或學習新的技能和技術。進一步了解

Amazon EC2 P3 執行個體和高效能運算

使用 AWS 上的 HPC 功能解決大型運算問題並取得全新洞見

Amazon EC2 P3 執行個體是執行工程模擬、計算金融、地震分析、分子建模、基因體、算圖和其他 GPU 運算工作負載的理想平台。高效能運算 (HPC) 可讓科學家和工程師解決這些複雜、運算密集的問題。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。AWS 透過在雲端執行 HPC,並能擴展到超過大部分現場部署環境實際可行的大量平行任務,讓您加快研究速度,又能縮短得出結果的時間。AWS 提供針對特定應用程式優化的解決方案來降低成本,無需投資大量資本。進一步了解

Amazon EC2 P3dn.24xlarge 執行個體

更快、功能更強大、更大型的執行個體尺寸,針對分散式機器學習和高效能運算進行優化

Amazon EC2 P3dn.24xlarge 執行個體是最快、功能最強且最大型的 P3 執行個體大小,可提供最高 100 Gbps 的網路輸送量、8 個 NVIDIA® V100 Tensor Core GPU,且每個配備 32 GB 記憶體、96 個自訂 Intel® Xeon® Scalable (Skylake) vCPU 和 1.8 TB 本機 NVMe 型 SSD 儲存。更快的網路、全新的處理器、雙倍的 GPU 記憶體以及額外的 vCPU,讓開發人員能夠將任務擴展到多部執行個體 (例如,16、32 或 64 部執行個體),以大幅縮短訓練 ML 模型的時間或執行更多 HPC 模擬。機器學習模型需要大量的訓練資料,此外,除了增加在執行個體之間傳輸資料的輸送量,P3dn.24xlarge 執行個體的額外網路輸送量也可以連接到 Amazon S3 或 Amazon EFS 等共用檔案系統解決方案,以加速大量訓練資料的存取。

消除瓶頸和縮短機器學習的訓練時間

有了 100 Gbps 的聯網輸送量,開發人員可以有效率地使用多部 P3dn.24xlarge 執行個體 (例如 16、32 或 64 部執行個體) 進行分散式訓練,並大幅縮短訓練時間。96 個 AWS 自訂 Intel Skylake 處理器 vCPU 具備在 2.5 GHz 下運行的 AVX-512 指令,有助於優化資料預處理。此外,P3dn.24xlarge 執行個體使用 AWS Nitro系統,結合了專用硬體和輕量型 hypervisor,幾乎能將主機硬體所有的運算和記憶資源提供給您的執行個體。

 

優化 GPU 使用率,達到更低的 TCO

使用彈性網路界面卡的增強型聯網,搭配最高 100 Gbps 的彙總網路頻寬,不僅可以在幾部 P3dn.24xlarge 執行個體之間分享資料,還可以透過 Amazon S3或 Amazon EFS 等共用檔案系統解決方案達成高輸送量的資料存取。高輸送量資料存取對於優化 GPU 使用率和提供運算執行個體的最大效能至關重要。

支援更大型和更複雜的模型

P3dn.24xlarge 執行個體提供 NVIDIA V100 Tensor Core GPU 和 32 GB 記憶體,提供訓練更先進和更大型的機器學習模型,以及處理較大批次的資料 (例如用於影像分類和目標偵測系統的 4k影像) 的靈活性。

 

Amazon EC2 P3 執行個體產品詳細資訊

執行個體大小 GPU – Tesla V100 GPU 端對端 GPU 記憶體 (GB) vCPU 記憶體 (GB) 網路頻寬 EBS 頻寬 隨需定價/小時* 1 年預留執行個體實際小時費率* 3 年預留執行個體實際小時費率*
p3.2xlarge 1 16 8 61 高達 10 Gbps 1.5 Gbps 3.06 USD 1.99 USD 1.05 USD
p3.8xlarge 4
NVLink 64 32 244 10 Gbps 7 Gbps 12.24 USD 7.96 USD 4.19 USD
p3.16xlarge 8 NVLink 128 64 488 25 Gbps 14 Gbps 24.48 USD 15.91 USD 8.39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100 Gbps 14 Gbps 31.218 USD 18.30 USD 9.64 USD

* – 所示價格是針對美國東部 (維吉尼亞北部) AWS 區域的 Linux/Unix,四捨五入到最接近的分。如需完整的定價詳情,請參閱 Amazon EC2 定價頁面。

客戶可以購買隨需執行個體、預留執行個體、Spot 執行個體及專用主機等形式的 P3 執行個體。

按秒計費

雲端運算的諸多優勢之一是能在需要時,可彈性佈建或取消佈建資源。我們精準到秒計費,讓客戶能夠提高彈性、節省費用,並使他們能夠優化資源分配,實現機器學習目標。

預留執行個體定價

相較於隨需執行個體的定價,預留執行個體可提供您更多的折扣 (最多 75%)。此外,將預留執行個體指派到特定可用區域時,可提供容量保留,讓您更能夠確信可在需要時啟動執行個體。

SPOT 定價

在 Spot 執行個體執行的這段時間,您將持續支付生效的 Spot 價格。Spot 執行個體的價格由 Amazon EC2 制定,然後根據 Spot 執行個體容量的長期供需趨勢逐漸調整。相較於隨需定價,Spot 執行個體可獲得高達 90% 的折扣。

最廣泛的全球可用性

1856-Updated Map Image-P3 Instances-transparentBG_1024x543

Amazon EC2 P3.2xlarge、P3.8xlarge 和 P3.16xlarge 執行個體可在 14 個 AWS 區域中使用,因此客戶可以靈活地在資料存放所在地訓練和部署機器學習模型。可使用 P3 的區域包括美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、加拿大 (中部)、歐洲 (愛爾蘭)、歐洲 (法蘭克福)、歐洲 (倫敦)、亞太區域 (東京)、亞太區域 (首爾)、亞太區域 (雪梨)、亞太區域 (新加坡)、中國 (北京)、中國 (寧夏) 和 AWS GovCloud (US) 等 AWS 區域。

美國東部 (維吉尼亞北部) 和美國西部 (奧勒岡) AWS 區域提供 P3dn.24xlarge 執行個體。

開始使用 Amazon EC2 P3 執行個體進行機器學習

若要在幾分鐘內開始使用,請進一步了解 Amazon SageMaker,或使用已預先安裝熱門深度學習架構 (如 Caffe2 和 Mxne) 的 AWS 深度學習 AMI。此外,您也可以使用 NVIDIA AMI,搭配預先安裝的 GPU 驅動程式和 CUDA 工具組。

部落格和文章

evangelist-randall-hunt-square
 
Randall Hunt
2017 年 11 月 29 日
bio_ML_Article
 
Cynthya Peranandam
2017 年 9 月 13 日
amrraga
 
Amr Ragab、Chetan Kapoor、Rahul Huilgol、Jarvis Lee、Tyler Mullenbach 和 Yong Wu
2018 年 7 月 20 日

關於 Amazon SageMaker

按一下這裡可進一步了解

關於 AWS 上的深度學習

按一下這裡可進一步了解

關於高效能運算 (HPC)

按一下這裡可進一步了解
準備好開始使用了嗎?
註冊
還有其他問題嗎?
聯絡我們