现在，SageMaker 模型并行化速度可提高 20%，而且代码改动更少

发布于: Dec 20, 2023

今天，AWS 宣布发布 Amazon SageMaker 模型并行库 (SMP) 的主要版本，该版本现在与 PyTorch Fully Sharded Data Parallel (FSDP) API 兼容，可将深度学习模型训练的速度提高 20%。SMP 通过自动分区并在多个加速器和计算实例之间分配模型，使您能够加速具有数十亿个参数的大型模型的训练。只需几行代码，您就能在几分钟内开始使用 SMP，并加快现有 PyTorch FSDP 训练脚本的速度。

PyTorch FSDP 是一种流行的分布式训练技术，通过将模型的权重、梯度和优化器状态分片到集群中的加速器上，减少了训练的内存占用。随着这一版本的发布，SageMaker 模型并行库的新 API 现在与 PyTorch FSDP 训练脚本兼容，并进一步加快了 PyTorch FSDP 训练脚本的速度，使客户能够在 SageMaker 上进行训练时轻松升级其现有工作负载。只需几行代码，客户就可以启用最先进的训练技术，例如混合分片数据并行性，这允许客户更改模型分片的程度，从而控制其训练任务的内存和通信需求。这个新版本还扩展了 FSDP 的功能，为 SageMaker 客户提供了张量并行训练技术，通过在不同的加速器设备上对模型层进行分区和分配，支持使用数千亿个参数训练模型。要开始使用 SageMaker 模型并行，请参阅我们的文档。

现在，SageMaker 模型并行化速度可提高 20%，而且代码改动更少

终止对 Internet Explorer 的支持