宣布推出 Amazon SageMaker HyperPod 训练算子

发布于: 2025年6月30日

今天,我们宣布正式推出 Amazon SageMaker HyperPod 训练算子,这是一个专为在 HyperPod 上进行韧性基础模型训练而构建的 Kubernetes 扩展程序。

Amazon SageMaker HyperPod 凭借内置的韧性,使客户能够跨数百或数千个 GPU 加速人工智能模型开发,从而将模型训练时间缩短高达 40%。随着训练集群规模的扩大,从训练中断中恢复的过程会变得越来越困难。在传统的故障恢复中,即使是单个训练进程发生故障,也需要在所有节点上完全重启整个作业,从而导致停机时间和成本增加。此外,识别和解决关键训练问题(例如 GPU 卡顿、训练吞吐量低和数值不稳定)通常需要复杂的自定义监控代码,这进一步延长了开发周期并推迟了产品上市时间。

利用 HyperPod 训练算子,客户可以进一步提高 Kubernetes 工作负载的训练韧性。在故障发生时,HyperPod 训练算子不会进行完整的作业重启,而是执行精准恢复,即选择性地重启受影响的训练资源,从而更快地从故障中恢复。它还引入了一项可自定义的挂起作业监控功能,通过简单的 YAML 配置帮助解决各种棘手的训练场景问题,包括训练批次卡顿、非数值型损失值和性能下降。开始使用很简单:创建一个 HyperPod 集群,安装训练算子插件,为挂起的作业制定自定义恢复策略(可选),然后启动训练。

此版本现已在目前支持 SageMaker HyperPod 的所有 AWS 区域正式推出。

请参阅文档了解更多信息。