发布于: Oct 4, 2019

Amazon SageMaker 现在支持 ml.p3dn.24xlarge 实例,它是最强大的 P3 实例,针对机器学习应用程序进行了优化。该实例提供更快的联网功能,有助于消除数据传输瓶颈并优化 GPU 利用率,从而为训练深度学习模型提供最佳性能。

ml.p3dn.24xlarge 实例提供高达 100Gbps 的联网吞吐量,96 个定制 Intel® Xeon® Scalable (Skylake) vCPU,8 个 NVIDIA® V100 Tensor Core GPU,每个具有 32GB 内存,300GB/s NVLINK GPU 互连,以及 1.8TB 本地 NVMe SSD 存储。与下一代最大的 P3 实例相比,该实例的网络吞吐量提高了 4 倍,它具有更快的处理器和本地 NVMe SSD 存储,将使开发人员能够在数个 ml.p3dn.24xlarge 实例之间高效地分配其机器学习训练作业,并消除数据传输和预处理瓶颈。

下面是 Amazon SageMaker ml.p3dn.24xlarge 实例与现有 Amazon SageMaker ML P3 实例的对比结果。

ML 实例类型 GPUs – Tesla V100 GPU 对等 GPU 内存 (GB) vCPU 内存 (GB) 网络带宽 EBS 带宽 本地实例存储
ml.p3.2xlarge 1 不适用 16 8 (Broadwell) 61 最高 10Gbps 1.5Gbps 不适用
ml.p3.8xlarge 4 NVLink 64 32 (Broadwell) 244 10Gbps 7Gbps 不适用
ml.p3.16xlarge 8 NVLink 128 64 (Broadwell) 488 25Gbps 14Gbps 不适用
ml.p3dn.24xlarge 8 NVLink 256 96 (Skylake) 768 100Gbps 14Gbps 2 个 900GB NVMe SSD

Amazon SageMaker ml.p3dn.24xlarge 实例现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)AWS 区域推出。通过使用这些实例,客户可以使用 1.8TB 本地 NVMe SSD 存储,而无需创建额外的 ML 存储卷并为之付费。请参阅 Amazon SageMaker 文档,详细了解如何使用这种实例的本地 NVMe SSD 存储。请访问 P3 页面,详细了解 AWS 客户如何使用 P3 实例。