发布于: Dec 20, 2023

今天,AWS 宣布发布 Amazon SageMaker 模型并行库 (SMP) 的主要版本,该版本现在与 PyTorch Fully Sharded Data Parallel (FSDP) API 兼容,可将深度学习模型训练的速度提高 20%。SMP 通过自动分区并在多个加速器和计算实例之间分配模型,使您能够加速具有数十亿个参数的大型模型的训练。只需几行代码,您就能在几分钟内开始使用 SMP,并加快现有 PyTorch FSDP 训练脚本的速度。

PyTorch FSDP 是一种流行的分布式训练技术,通过将模型的权重、梯度和优化器状态分片到集群中的加速器上,减少了训练的内存占用。随着这一版本的发布,SageMaker 模型并行库的新 API 现在与 PyTorch FSDP 训练脚本兼容,并进一步加快了 PyTorch FSDP 训练脚本的速度,使客户能够在 SageMaker 上进行训练时轻松升级其现有工作负载。只需几行代码,客户就可以启用最先进的训练技术,例如混合分片数据并行性,这允许客户更改模型分片的程度,从而控制其训练任务的内存和通信需求。这个新版本还扩展了 FSDP 的功能,为 SageMaker 客户提供了张量并行训练技术,通过在不同的加速器设备上对模型层进行分区和分配,支持使用数千亿个参数训练模型。要开始使用 SageMaker 模型并行,请参阅我们的文档