Amazon SageMaker HyperPod 现已支持无检查点训练
发布于:
2025年12月3日
Amazon SageMaker HyperPod 现在支持无检查点训练,这是一种新的基础模型训练功能,能够减少进行故障恢复时基于检查点在作业级重启的情况。即使出现故障,无检查点训练仍能保持向前训练的势头,将恢复时间从数小时缩短到几分钟。这标志着基于检查点的传统恢复方式发生了根本性转变。在传统恢复方式中,一旦出现故障,就需要暂停整个训练集群,手动诊断问题,然后从保存的检查点进行恢复,这一过程可能会使昂贵的人工智能加速器闲置数小时,进而造成组织计算资源的浪费。
无检查点训练改变了这种模式,它可以保留分布式集群中的模型训练状态、自动即时交换故障训练节点,并使用来自健康加速器的点对点状态传输实现故障恢复。 通过在恢复期间减轻对检查点的依赖,无检查点训练可以帮助您的组织节省人工智能加速器闲置所产生的成本,并缩短时间。即使在更大规模的情况下,Amazon SageMaker HyperPod 的无检查点训练也能在包含数千个人工智能加速器的集群中实现高达 95% 的有效吞吐量。
SageMaker HyperPod 上的无检查点训练已在目前提供 Amazon SageMaker HyperPod 的所有 AWS 区域推出。 使用适用于 Llama 和 GPT OSS 等热门公开模型的 HyperPod 配方,您无需更改任何代码即可实现无检查点训练。对于自定义模型架构,您只需对基于 PyTorch 的工作流程进行极少的修改,即可集成无检查点训练组件,这样一来,无论您团队的分布式训练专业知识如何,都能轻松使用。
要开始使用,请访问 Amazon SageMaker HyperPod 产品页面,并参阅无检查点训练的 GitHub 页面,以获取实施指南。