張貼日期: Oct 4, 2019

Amazon SageMaker 現在支援 ml.p3dn.24xlarge,這是最強大的 P3 執行個體,已針對機器學習應用程式進行優化。這個執行個體提供更快速的網路,有助於除去資料傳輸瓶頸,並優化 GPU 使用率,為訓練深度學習模型提供最大效能。

ml.p3dn.24xlarge 執行個體可提供最高 100 Gbps 的網路輸送量,96 個自訂 Intel® Xeon® Scalable (Skylake) vCPU,8 個具有 32 GB 記憶體的 NVIDIA® V100 Tensor Core GPU、每秒 300 GB 的 NVLINK GPU 互連,以及 1.8 TB 的本機 NVMe 型 SSD 儲存。與第二大的 P3 執行個體相比,網路輸送量增加 4 倍,而且搭配更快速的處理器和本機 NVMe 型 SSD 儲存,可讓開發人員更有效率地將機器學習訓練任務分散到多個 ml.p3dn.24xlarge 執行個體,消除資料傳輸和預先處理的瓶頸。

下面是 Amazon SageMaker ml.p3dn.24xlarge 執行個體與現有 Amazon SageMaker ML P3 執行個體的比較。

ML 執行個體類型 GPU – Tesla V100 GPU 端對端 GPU 記憶體 (GB) vCPU 記憶體 (GB) 網路頻寬 EBS 頻寬 本地執行個體儲存體
ml.p3.2xlarge 1 16 8 (Broadwell) 61 高達 10 Gbps 1.5 Gbps
ml.p3.8xlarge 4 NVLink 64 32 (Broadwell) 244 10 Gbps 7 Gbps
ml.p3.16xlarge 8 NVLink 128 64 (Broadwell) 488 25 Gbps 14 Gbps
ml.p3dn.24xlarge 8 NVLink 256 96 (Skylake) 768 100 Gbps 14 Gbps 2 x 900 GB NVMe SSD

Amazon SageMaker ml.p3dn.24xlarge 執行個體現已在美國東部 (維吉尼亞北部) 和美國西部 (奧勒岡) AWS 區域推出。客戶可透過這些執行個體使用 1.8 TB 的本機 NVMe 型 SSD 儲存,免除建立和支付其他 ml 儲存磁碟區的需要。要進一步了解如何在這個執行個體類型使用本機 NVMe 型 SSD 儲存,請參閱 Amazon SageMaker 文件。要進一步了解 AWS 客戶如何使用 P3 執行個體,請參閱 P3 頁面