亚马逊AWS官方博客

新功能 — 由 Gaudi 加速器提供支持的用于训练深度学习模型的 EC2 实例

如今,用于深度学习的应用程序比以往任何时候都多。自然语言处理、推荐系统、图像识别、视频识别等都可以从高质量、训练有素的模型中受益。

构建这样一个模型的过程是迭代的:构建一个初始模型,在真实数据的基础上对它进行训练,做一些测试推断,优化模型,然后重复。深度学习模型包含许多层(并因此得名),每个层都会转换前一层的输出。训练过程包含大量数学运算和处理器操作,并且对用于训练的系统的几乎每个部分(包括 GPU 或其他训练加速器、网络以及本地或网络存储)都提出了要求。这种精密性和复杂性增加了训练时间并提高了成本。

新的 DL1 实例
我想向大家介绍一下我们全新的 DL1 实例dl1.24xlarge 实例由 Habana Labs 的 Gaudi 加速器提供支持,具有以下规格:

Gaudi 加速器 – 每个实例均配备八个 Gaudi 加速器,总共 256 GB 的高带宽 (HBM2) 加速器内存以及加速器之间的高速、RDMA 驱动的通信。

系统内存 – 768 GB 的系统内存,足以在内存中容纳非常大的训练数据集(我们的客户经常有此要求)。

本地存储 – 4 TB 的本地 NVMe 存储,配置为四个 1 TB 卷。

处理器 – 配备 96 个 vCPU 的 Intel Cascade Lake 处理器。

网络 – 400 Gbps 的网络吞吐量。

正如您看到的,我们在几乎每个方面都达到了最大规格,目的是为您提供一个功能强大的机器学习培训平台,其入门成本低,性价比较当前基于 GPU 的 EC2 实例高出 40%。

Gaudi 内部
Gaudi 加速器是为机器学习训练量身定制设计的,具有大量酷炫有趣的功能和属性:

数据类型 – 支持浮点型(BF16 和 FP32)、有符号整数(INT8、INT16 和 INT32)和无符号整数(UINT8、UINT16 和 UINT32)数据。

通用矩阵乘法引擎 (GEMM) – 加速矩阵乘法的专用硬件。

张量处理核心 (TPC) – 专为机器学习训练而设计的 VLIW SIMD(超长指令字/单指令多数据)处理单元。TPC 可通过 C 语言编程,尽管大多数用户将使用更高级别的工具和框架。

DL1 实例入门
用于训练的 Gaudi SynapseAI 软件套件将帮助您构建新模型,并从 PyTorch 和 TensorFlow 等热门框架中迁移现有模型:

以下是一些可帮助您入门的资源:

TensorFlow 用户指南 – 了解如何在 Gaudi 上运行 TensorFlow 模型。

PyTorch 用户指南 – 了解如何在 Gaudi 上运行 PyTorch 模型。

Gaudi 模型迁移指南 – 了解如何将 PyTorch 或 TensorFlow 转移到 Gaudi。

HabanaAI Repo – 这个大型的活跃库包含设置说明、参考模型、学术论文等。

您可以使用 TPC 编程工具编写、模拟和调试直接在 TPC 上运行的代码,还可以使用 Habana 通信库 (HCL) 构建利用多个加速器的强大功能的应用程序。Habana 集体通信库 (HCCL) 基于 HCL 运行,允许您访问用于 Reduce、Broadcast、Gather 和 Scatter 操作的集合基元。

现已推出
DL1 实例现已在美国东部(弗吉尼亚北部)美国西部(俄勒冈)区域以按需和 Spot 形式提供。您也可以购买预留实例和 Savings Plans。

Jeff