亚马逊AWS官方博客

新增功能 – EC2 P3dn GPU,加快机器学习速度并下调 P3 实例价格

去年底我给大家介绍了 Amazon EC2 P3 实例,此外还探讨了一下 Tensor Core 的概念。Tensor Core 是一种面向大型深层神经网络的专业化机器学习训练和推理加速计算单元。我们的客户喜爱 P3 实例,并使用此实例来运行广泛的机器学习和高性能计算 (HPC) 工作负载。例如,fast.ai 创下了深度学习的速度纪录,利用 100 万张图片完成了 ResNet-50 深度学习模型的训练,费用仅 40 USD。

提升上限

今天我们新推出 p3dn.24xlarge 实例,进一步提升 P3 实例的上限,此实例的 GPU 内存为 p3.16xlarge 实例的 2 倍,vCPU 数量是后者的 1.5 倍。此实例配备 100 Gbps 网络带宽(最高可达老款 P3 实例的 4 倍)、本地 NVMe 存储、含 32 GB GPU 内存的最新型号 NVIDIA V100 Tensor Core GPU、用于加快 GPU 间通信的 NVIDIA NVLink、AWS 定制的 Intel® Xeon® 可扩展 (Skylake) 处理器(全内核睿频稳定频率 3.1 GHz),所有配置都依托 AWS Nitro 系统构建。规格如下:4

型号 NVIDIA V100 Tensor Core GPU GPU 内存 NVIDIA NVLink vCPU 数量 主内存 本地存储 网络带宽 EBS 优化带宽
p3dn.24xlarge 8 256 GB 300 GB/s 96 768 GiB 2 x 900 GB NVMe SSD 100 Gbps 14 Gbps

如果您要使用 MXNetTensorFlowPyTorchKeras 进行大规模的训练运行,请不要忘记 Amazon Deep Learning AMI 中包含的 Horovod分布式训练框架。您还应在 AWS Marketplace 中看看新的 NVIDIA 人工智能软件容器;这些容器已经为配备 V100 GPU 的 P3 实例进行优化。

p3dn.24xlarge 实例的总 GPU 内存高达 256 GB(是当前最大型号 P3 实例的两倍),可让您探索更大、更复杂的深度学习算法。您能够以比以往更快的速度轮换和扩展训练图像,同时发挥 Intel AVX-512 指令集和其他先进的 Skylake 功能的优势。您可以使用 NVLinkNVLink Collective Communications Library (NCCL),从而让您的 GPU 代码跨多个 GPU 和/或实例扩展。借助 NCCL,您还可以在置放组内使用的实例之间充分利用可用的 100 Gbps 网络带宽。

除非常适合分布式机器学习训练和图像分类作业外,此类实例也可为您的高性能计算 (HPC) 作业提供强大助力。您可以进行 3D 图像渲染、实时视频转码、金融风险建模等作业。

您可以使用包含 ENA、NVMe 和 NVIDIA 驱动程序的现有 AMI。您需要升级到最新版的 ENA 驱动程序才能获得 100 Gbps 网络带宽;如果您使用 Deep Learning AMI,请一定要使用为 AVX-512 优化的最新版本。

现已推出

p3dn.24xlarge 实例现已在美国东部(弗吉尼亚北部)美国西部(俄勒冈)区域推出,您可以立即以按需实例、Spot 实例和预留实例形式使用这些实例。

让利 — P3 实例降价

在今天发布新产品的同时,我们还下调了现有 P3 实例的价格。下列价格从 2018 年 12 月 6 日起生效:

  • 亚太地区(东京)区域的所有价格(按需实例和预留实例)和实例型号降价 20%
  • 亚太地区(悉尼)亚太地区(新加坡)亚太地区(首尔)区域的所有价格(按需实例和预留实例)和实例型号降价 15%
  • 亚太地区(东京)亚太地区(悉尼)亚太地区(新加坡)亚太地区(首尔)外,所有区域所有实例型号的三年承诺期标准预留实例降价 15%

上述降价幅度适用于运行 Linux 的实例;运行 Microsoft Windows 和其他操作系统的实例降价幅度略低。

以上降价将有利于进一步提高您的机器学习训练和推理的经济性,是为了实现我们让每个开发人员都可进行机器学习的目标而作出的重要举措。

本篇作者

Jeff Barr

AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。