GPU | 亚马逊AWS官方博客

使用NICE DCV 管理带有 GPU的Ubuntu桌面

本文描述了使用部署一台含有GPU的G4dn EC2实例，并使用Ubuntu操作系统，在其上安装NICE DCV 进行远程管理。

Kubernetes 节点弹性伸缩开源组件 Karpenter 实践：部署GPU推理应用

在Kubernetes集群中该组件可以针对 Unscheduleable Pods 的需求，自动创建合适的新节点并加入集群中。同时，在大规模集群中，Karpenter在节点伸缩的效率上也会更加优化。

新增功能 – 用于机器学习和 HPC 的配备 GPU 的 EC2 P4 实例

近十年来，Amazon EC2 团队一直为我们的客户提供配备 GPU 的实例。第一代集群 GPU 实例于 2010 年末发布，随后推出了 G2（2013 年）、P2（2016 年）、P3（2017 年）、G3（2017 年）、P3dn（2018 年）和 G4（2019 年）实例。每一代产品都包含了功能越来越强大的 GPU 以及足够的 CPU 能力、内存和网络带宽，以允许最大限度地利用 GPU。

在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练

在Amazon SageMaker上以管道模式使用Horovod的多GPU或分布式训练方法，能够为数据集的各个分片创建独立的训练通道并在数据通道内访问对应分片，借此实现大规模模型训练。这种方式能够缩短在实际训练开始之前将数据集传输至训练实例所占用的时间，因此特别适用于具有大规模训练数据集的Amazon SageMaker训练场景。

在 Amazon SageMaker 内对深度学习训练中的 GPU 性能进行 I/O 优化

到这里，相信大家已经了解了数据加载与处理如何影响GPU资源利用率，以及该如何通过解决I/O或与网络相关的瓶颈以提高GPU性能。在进一步讨论多GPU或者分布式模型训练等高级主题之前，我们应该首先解决这些最基本但也极为关键的瓶颈。

使用 Ubuntu18 DLAMI，P3dn 实例与 EFA，和 Amazon FSx for Lustre 实现大规模多 GPU 分布式深度学习训练

为深度学习训练设置机器学习基础设施往往是一项艰巨的任务，您通常需要依赖基础设施团队构建起相应环境，这将极大浪费宝贵的生产时间。此外，深度学习技术库与软件包也一直在快速变化，您需要测试各软件包之间的互操作性。使用Ubuntu 18 DLAMI，您将无需担心于基础设施设置与软件安装工作。AWS DLAMI已经为所有主流机器学习框架预先构建了必要的深度学习库与软件包，让您能够专注于模型的训练、调优与推理。