宣佈推出適用於 Amazon SageMaker HyperPod 的受管分層檢查點

張貼日期: 2025年9月8日

今日,Amazon Web Service (AWS) 宣佈正式推出適用於 Amazon SageMaker HyperPod 的受管分層檢查點,這是一項全新功能,旨在縮短模型恢復時間,並將訓練進度損失降至最低。隨著 AI 訓練不斷擴展,基礎架構故障的可能性也會隨之增加,這同時讓高效的檢查點變得十分重要。傳統的檢查點方法可能十分緩慢,並且需要耗費大量資源 (尤其是對於大型模型而言)。SageMaker HyperPod 的受管分層檢查點能夠解決這項問題,方法是利用 CPU 記憶體儲存頻繁的檢查點以便快速復原,同時定期將資料保存至 Amazon S3 以獲得長期耐用性。這種混合方法可最大程度地減少訓練損失,並大幅縮短故障後恢復訓練的時間。

有了受管分層檢查點,組織就能夠在大型叢集上以高輸送量可靠地完成訓練。該解決方案可讓客戶在記憶體內和持久性儲存層中設定檢查點頻率和保留政策。透過經常在記憶體中儲存檢查點,客戶能夠在降低儲存成本的情況下快速復原。受管分層檢查點與 PyTorch 的分散式檢查點 (DCP) 整合,客戶只需幾行程式碼即可輕鬆實作檢查點,同時享受記憶體內儲存的效能優勢。

此功能目前適用於使用 EKS 協調器的 SageMaker HyperPod 叢集。透過 CreateCluster 或 UpdateCluster API 建立或更新 HyperPod 叢集時,客戶能夠指定 API 參數來啟用受管分層檢查點。然後,客戶可以在對訓練指令碼進行最低程度程式碼變更的情況下,使用 sagemaker-checkpointing Python 程式庫來實作受管分層檢查點。

受管分層檢查點適用於目前提供 SageMaker HyperPod 的所有區域。若要進一步了解,請參閱部落格文章文件