亚马逊AWS官方博客

现已在 Amazon SageMaker 上推出:EC2 P3dn GPU 实例

近年来,深度学习技术急速兴起,让许多不可思议的应用成为可能,例如检测皮肤癌 (SkinVision) 和构建自动驾驶汽车 (TuSimple)。得益于神经网络的发展,深度学习其实已经拥有极为可怕的能力,可以从海量的非结构化数据(例如图像、视频和自由文本)中提取复杂的模式并构建模型。

但这些神经网络的训练同样需要极大的计算能力。图形处理单元 (GPU) 早已证明它们是这一任务的当然之选,AWS 客户也在快速了解如何使用 Amazon Elastic Compute Cloud (EC2) P2P3 实例来训练模型,尤其是在我们完全托管的模块化机器学习服务 Amazon SageMaker 上进行训练。

今天,我很高兴宣布最大型号的 P3 实例 p3dn.24xlarge 现已可在 Amazon SageMaker 上用于训练模型。此型号的实例于去年推出,专为加速大型复杂的分布式训练作业而设计:它的 GPU 内存是其他 P3 实例的两倍,vCPU 数量增加了 50%,具有超快速的本地 NVMe 存储和高达 100Gb 的网络带宽。

Amazon SageMaker 上的应用效果如何?

在 Amazon SageMaker 上推出 EC2 P3dn 实例
让我们以此笔记本为例,它使用内置图像分类算法来训练 Caltech-256 数据集上的一个模型。要在 Amazon SageMaker 上使用 p3dn.24xlarge 实例,只需将 train_instance_type 设置为'ml.p3dn.24xlarge',然后即可开始训练!

ic = sagemaker.estimator.Estimator(training_image,
                                         role,
                                         train_instance_count=1,
                                         train_instance_type='ml.p3dn.24xlarge',
                                         input_mode='File',
                                         output_path=s3_output_location,
                                         sagemaker_session=sess)
...
ic.fit(...)

我在此笔记本上运行了一些快速的测试,训练速度直接提升了 20%,非常漂亮(您的结果可能会有差异!)。此处我使用了 'File' 模式,也就是将整个数据集复制到训练实例:更快的网络(从 25Gb 增加至 100Gb)和存储(本地 NVMe 而不是 Amazon EBS)当然作用极大!

在处理大型数据集时,您可以投入高达 100Gb 的网络带宽,以使用 Pipe 模式轻松处理来自 Amazon Simple Storage Service (S3) 的流数据,或将流数据存储到Amazon Elastic File SystemAmazon FSx for Lustre 中。它还可以用于处理分布式训练(例如可使用 Horovod),因为实例将能够更快交换参数更新。

总之,Amazon SageMaker 和 P3dn 的强强组合带来了极大的震撼,应可显著提高大规模深度学习工作负载的性能。

现已推出!
P3dn 实例现已在以下区域的 Amazon SageMaker 中推出:美国东部(弗吉尼亚北部)美国西部(俄勒冈)。如果您已准备好使用这些实例,请与 AWS 客户团队联系,或在联系我们页面上提交请求。

与以往一样,我们希望收到您的反馈:请通过 AWS 论坛Amazon SageMaker 版块或者您常用的 AWS 联系方式发送反馈。