在 Amazon SageMaker HyperPod 中引入弹性训练

发布于: 2025年12月3日

Amazon SageMaker HyperPod 现在支持弹性训练,使组织能够根据资源可用性和工作负载优先级自动扩展训练工作负载,从而加快基础模型训练。这标志着使用固定资源集进行训练发生了根本性转变,因为它节省了根据计算可用性重新配置训练作业所用的数小时工程时间。

以前,计算可用性只要发生变化,就需要手动停止训练、重新配置训练参数并重启作业,这一过程需要分布式训练专业知识,并且会使昂贵的人工智能加速器在训练作业重新配置期间处于闲置状态。弹性训练会自动扩展训练作业以吸收闲置的人工智能加速器,并在优先级较高的工作负载需要资源时无缝收缩,而所有这些都无需完全停止训练。

通过消除手动重新配置开销,并确保持续利用可用计算,弹性训练可以帮助节省先前花在基础设施管理上的时间,通过最大限度地提高集群利用率来降低成本,并缩短上市时间。训练可以用最少的资源立即开始,并在容量可用时抓住机会灵活扩展。

SageMaker HyperPod 已在目前提供 Amazon SageMaker HyperPod 的所有区域推出。使用适用于 Llama 和 GPT OSS 等公开模型的 HyperPod 配方,组织无需更改任何代码即可实现弹性训练。对于自定义模型架构,客户可以通过轻量级配置更新和极少的代码修改来集成弹性训练功能,这样一来,团队无需具备分布式系统专业知识即可轻松使用。

要开始使用,请访问 Amazon SageMaker HyperPod 产品页面,并参阅弹性训练文档,以获取实施指南。