发布于: Sep 30, 2022
我们很高兴地宣布,Amazon SageMaker Model Training 现在支持 SageMaker Training 托管的热池。用户现在可以选择在作业完成后的指定时间段内使其机器学习 (ML) 模型训练硬件实例保持温暖。使用此功能,客户可以在相同的热实例上进行迭代试验或大规模运行连续作业以进行模型训练,作业启动延迟可缩短最多 8 倍。
Amazon SageMaker Model Training 是一项完全托管的功能,它可以为每个作业启动实例,训练模型,然后在作业完成后关闭实例。仅在作业期间向客户计费。通过这项完全托管的功能,客户可以自由地专注于他们的机器学习算法,而不必在训练模型时操心基础设施管理。但是,由于每个训练作业都需要预置硬件实例,因此这种行为会导致重复性的训练工作负载出现启动延迟。考虑到模型训练过程需要大量的迭代试验,因此每个作业的启动延迟对客户来说都是额外的开销。此外,喜欢大规模训练大量模型的客户通常对连续的训练作业使用相同的实例配置,他们会发现每个作业的这种启动延迟都很繁重。
使用 SageMaker Training 托管的热池,客户可以在每个作业后的指定时间段内使其模型训练硬件实例保持温暖。这允许他们使用已经启动并正在运行的实例开始训练,以便进行迭代试验或连续训练大量模型。使用 SageMaker Training 托管的热池,客户可以将模型训练作业的启动延迟缩短最多 8 倍。客户可以通过在训练 API 中指定保持活动期来启用 SageMaker Training 托管的热池。如果他们选择使用热池,则会在保持活动期内对实例和 EBS 卷进行计费。
SageMaker Training 托管的热池在所有提供 Amazon SageMaker Model Training 的公共 AWS 区域推出。要开始使用,请参阅《Amazon SageMaker 开发人员指南》中的使用 SageMaker 托管的热池进行训练。