亚马逊AWS官方博客

Tag: GPU

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在Amazon SageMaker上以管道模式使用Horovod的多GPU或分布式训练方法,能够为数据集的各个分片创建独立的训练通道并在数据通道内访问对应分片,借此实现大规模模型训练。这种方式能够缩短在实际训练开始之前将数据集传输至训练实例所占用的时间,因此特别适用于具有大规模训练数据集的Amazon SageMaker训练场景。

Read More

使用 Ubuntu18 DLAMI,P3dn 实例与 EFA,和 Amazon FSx for Lustre 实现大规模多 GPU 分布式深度学习训练

为深度学习训练设置机器学习基础设施往往是一项艰巨的任务,您通常需要依赖基础设施团队构建起相应环境,这将极大浪费宝贵的生产时间。此外,深度学习技术库与软件包也一直在快速变化,您需要测试各软件包之间的互操作性。使用Ubuntu 18 DLAMI,您将无需担心于基础设施设置与软件安装工作。AWS DLAMI已经为所有主流机器学习框架预先构建了必要的深度学习库与软件包,让您能够专注于模型的训练、调优与推理。

Read More

使用 Amazon EC2 G4 实例搭建云游戏服务器

Amazon EC2 G4实例提供了极具成本效益的GPU,并支持实时光线追踪技术,可以使游戏渲染更加高效和真实,为云游戏提供经济高效的解决方案。本文从G4实例在云游戏服务器使用方面的优势、应用场景等方面进行介绍,并用动手实践文档向您介绍如何使用G4实例搭建云游戏服务器,帮助您快速上手。

Read More