宣布为 Amazon SageMaker HyperPod 提供托管分层检查点
今天,Amazon Web Service (AWS) 宣布全面推出 Amazon SageMaker HyperPod 托管分层检查点,这项新功能旨在缩短模型恢复时间,并最大限度地减少训练过程中的损失。随着 AI 训练的扩展,基础设施出现故障的可能性也在增加,因此高效的检查点至关重要。传统的检查点方法可能速度缓慢且占用大量资源,尤其是对于大型模型而言更是如此。SageMaker HyperPod 托管分层检查点使用 CPU 内存来存储频繁的检查点以实现快速恢复,同时定期将数据保存到 Amazon S3 以实现长期持久性,从而解决了这一问题。这种混合方法可以最大限度地减少训练损失,并显著缩短故障后恢复训练的时间。
借助托管分层检查点,组织可以可靠地进行训练,在大规模集群上实现高吞吐量。该解决方案允许客户在内存和永久存储层上配置检查点频率和保留策略。通过经常存储在内存中,客户可以快速恢复,同时最大限度地降低存储成本。通过与 PyTorch 分布式检查点 (DCP) 集成,客户只需几行代码即可轻松实施检查点,同时获得内存存储的性能优势。
此功能目前已面向使用 EKS 编排工具的 SageMaker HyperPod 集群推出。通过 CreateCluster 或 UpdateCluster API 创建或更新 HyperPod 集群时,客户可以通过指定 API 参数来启用托管分层检查点。然后,客户可以使用 sagemaker-checkpoint python 库,只需对训练脚本进行极少的代码更改,即可实施托管分层检查点。
托管分层检查点现已在当前提供 SageMaker HyperPod 的所有区域推出。要了解更多信息,请参阅博客文章和文档。