发布于: Jul 8, 2022
Amazon SageMaker 模型训练现在支持异构集群,这让您可以在一个作业中启动多个使用多种实例类型的训练作业。这项新功能可以在最合适的实例类型上运行模型训练的不同部分,从而降低您的训练成本。例如,我们最近在拥有 ml.g5.xl 和 ml.c5n.2xl 实例的异构集群上训练了一个 ResNet-50 计算机视觉模型。与在只拥有 ml.g5.xl 实例的集群上训练相同的模型相比,这项训练作业的成本降低了 13%,且准确率相同。
某些机器学习工作负载结合了一些任务,这些任务可以使用不同的实例类型,并从中受益。例如,训练计算机视觉模型经常需要将神经网络模型训练的 GPU 密集型任务与数据处理和增强的 CPU 密集型任务相结合。在单个实例类型上运行这两个任务会导致 GPU 利用率较低,导致资源浪费。
使用异构集群功能,SageMaker 训练作业可以在多种实例类型上运行,其中 GPU 密集型任务在 ml.p4d.24xl 等实例类型上运行,CPU 密集型任务在 ml.c5n.18xl 等实例类型上运行。这种灵活性可以提高 GPU 的利用率,从而带来整体成本效益的提升。异构集群的使用无需额外付费。
要了解详情,请参阅异构集群文档。要开始使用,请登录 Amazon SageMaker 控制台。