亚马逊AWS官方博客

Tag: GPU

新增功能 – 用于机器学习和 HPC 的配备 GPU 的 EC2 P4 实例

近十年来,Amazon EC2 团队一直为我们的客户提供配备 GPU 的实例。第一代集群 GPU 实例于 2010 年末发布,随后推出了 G2(2013 年)、P2(2016 年)、P3(2017 年)、G3(2017 年)、P3dn(2018 年)和 G4(2019 年)实例。每一代产品都包含了功能越来越强大的 GPU 以及足够的 CPU 能力、内存和网络带宽,以允许最大限度地利用 GPU。

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在Amazon SageMaker上以管道模式使用Horovod的多GPU或分布式训练方法,能够为数据集的各个分片创建独立的训练通道并在数据通道内访问对应分片,借此实现大规模模型训练。这种方式能够缩短在实际训练开始之前将数据集传输至训练实例所占用的时间,因此特别适用于具有大规模训练数据集的Amazon SageMaker训练场景。

使用 Ubuntu18 DLAMI,P3dn 实例与 EFA,和 Amazon FSx for Lustre 实现大规模多 GPU 分布式深度学习训练

为深度学习训练设置机器学习基础设施往往是一项艰巨的任务,您通常需要依赖基础设施团队构建起相应环境,这将极大浪费宝贵的生产时间。此外,深度学习技术库与软件包也一直在快速变化,您需要测试各软件包之间的互操作性。使用Ubuntu 18 DLAMI,您将无需担心于基础设施设置与软件安装工作。AWS DLAMI已经为所有主流机器学习框架预先构建了必要的深度学习库与软件包,让您能够专注于模型的训练、调优与推理。