现已在 Amazon SageMaker 上推出：EC2 P3dn GPU 实例

近年来，深度学习技术急速兴起，让许多不可思议的应用成为可能，例如检测皮肤癌 (SkinVision) 和构建自动驾驶汽车 (TuSimple)。得益于神经网络的发展，深度学习其实已经拥有极为可怕的能力，可以从海量的非结构化数据（例如图像、视频和自由文本）中提取复杂的模式并构建模型。

但这些神经网络的训练同样需要极大的计算能力。图形处理单元 (GPU) 早已证明它们是这一任务的当然之选，AWS 客户也在快速了解如何使用 Amazon Elastic Compute Cloud (EC2) P2 和 P3 实例来训练模型，尤其是在我们完全托管的模块化机器学习服务 Amazon SageMaker 上进行训练。

今天，我很高兴宣布最大型号的 P3 实例 p3dn.24xlarge 现已可在 Amazon SageMaker 上用于训练模型。此型号的实例于去年推出，专为加速大型复杂的分布式训练作业而设计：它的 GPU 内存是其他 P3 实例的两倍，vCPU 数量增加了 50%，具有超快速的本地 NVMe 存储和高达 100Gb 的网络带宽。

在 Amazon SageMaker 上的应用效果如何？

在 Amazon SageMaker 上推出 EC2 P3dn 实例
让我们以此笔记本为例，它使用内置图像分类算法来训练 Caltech-256 数据集上的一个模型。要在 Amazon SageMaker 上使用 p3dn.24xlarge 实例，只需将 train_instance_type 设置为'ml.p3dn.24xlarge'，然后即可开始训练！

ic = sagemaker.estimator.Estimator(training_image,
                                         role,
                                         train_instance_count=1,
                                         train_instance_type='ml.p3dn.24xlarge',
                                         input_mode='File',
                                         output_path=s3_output_location,
                                         sagemaker_session=sess)
...
ic.fit(...)

我在此笔记本上运行了一些快速的测试，训练速度直接提升了 20%，非常漂亮（您的结果可能会有差异！）。此处我使用了 'File' 模式，也就是将整个数据集复制到训练实例：更快的网络（从 25Gb 增加至 100Gb）和存储（本地 NVMe 而不是 Amazon EBS）当然作用极大！

在处理大型数据集时，您可以投入高达 100Gb 的网络带宽，以使用 Pipe 模式轻松处理来自 Amazon Simple Storage Service (S3) 的流数据，或将流数据存储到 Amazon Elastic File System 或 Amazon FSx for Lustre 中。它还可以用于处理分布式训练（例如可使用 Horovod），因为实例将能够更快交换参数更新。

总之，Amazon SageMaker 和 P3dn 的强强组合带来了极大的震撼，应可显著提高大规模深度学习工作负载的性能。

现已推出！
P3dn 实例现已在以下区域的 Amazon SageMaker 中推出：美国东部（弗吉尼亚北部）和美国西部（俄勒冈）。如果您已准备好使用这些实例，请与 AWS 客户团队联系，或在联系我们页面上提交请求。

与以往一样，我们希望收到您的反馈：请通过 AWS 论坛的 Amazon SageMaker 版块或者您常用的 AWS 联系方式发送反馈。

亚马逊AWS官方博客

现已在 Amazon SageMaker 上推出：EC2 P3dn GPU 实例