Amazon SageMaker HyperPod 現在支援無檢查點訓練

張貼日期: 2025年12月3日

Amazon SageMaker HyperPod 現在支援無檢查點訓練,這個新的基礎模型訓練功能,可減緩故障復原時對檢查點型工作層級重新啟動需求。即使遭遇失敗,無檢查點訓練也可維持訓練動量,將復原時間從幾小時縮短到幾分鐘。這代表傳統檢查點型復原產生了徹底轉變,先前遭遇失敗時會需要暫停整個訓練叢集、手動診斷問題,並從儲存的檢查點復原,這個程序可能會使昂貴的 AI 加速器閒置數小時,導致組織浪費運算資源。

無檢查點訓練可改善這些案例,將模型訓練狀態保留在分散式叢集中,在運作過程中自動更換故障訓練節點,並運用狀態良好的加速器,透過點對點狀態傳輸進行故障復原。 無檢查點訓練可以減緩復原期間對檢查點的依賴性,協助組織節省閒置 AI 加速器成本並加快流程。若擴展規模,Amazon SageMaker HyperPod 的無檢查點訓練,可在配備數千個 AI 加速器的叢集規模中,支援高達 95% 的訓練實際輸送量。

SageMaker HyperPod 上的無檢查點訓練適用於目前提供 Amazon SageMaker HyperPod 的所有 AWS 區域。 您可以運用 HyperPod 配置,針對熱門公開可用模型 (例如 Llama 和 GPT OSS) 啟用無檢查點訓練,而無需變更程式碼。對於自訂模型架構,您可以在修改量最低的狀況下,整合無檢查點訓練元件與 PyTorch 型工作流程,無論您的團隊掌握多少分散式訓練專業知識,都可以使用。

若要開始使用,請造訪 Amazon SageMaker HyperPod 產品頁面,並參閱無檢查點訓練 GitHub 頁面以了解實作指南。