Amazon SageMaker HyperPod 現在支援無檢查點訓練

張貼日期: 2025年12月3日

Amazon SageMaker HyperPod 現在支援無檢查點訓練，這個新的基礎模型訓練功能，可減緩故障復原時對檢查點型工作層級重新啟動需求。即使遭遇失敗，無檢查點訓練也可維持訓練動量，將復原時間從幾小時縮短到幾分鐘。這代表傳統檢查點型復原產生了徹底轉變，先前遭遇失敗時會需要暫停整個訓練叢集、手動診斷問題，並從儲存的檢查點復原，這個程序可能會使昂貴的 AI 加速器閒置數小時，導致組織浪費運算資源。

無檢查點訓練可改善這些案例，將模型訓練狀態保留在分散式叢集中，在運作過程中自動更換故障訓練節點，並運用狀態良好的加速器，透過點對點狀態傳輸進行故障復原。無檢查點訓練可以減緩復原期間對檢查點的依賴性，協助組織節省閒置 AI 加速器成本並加快流程。若擴展規模，Amazon SageMaker HyperPod 的無檢查點訓練，可在配備數千個 AI 加速器的叢集規模中，支援高達 95% 的訓練實際輸送量。

SageMaker HyperPod 上的無檢查點訓練適用於目前提供 Amazon SageMaker HyperPod 的所有 AWS 區域。您可以運用 HyperPod 配置，針對熱門公開可用模型 (例如 Llama 和 GPT OSS) 啟用無檢查點訓練，而無需變更程式碼。對於自訂模型架構，您可以在修改量最低的狀況下，整合無檢查點訓練元件與 PyTorch 型工作流程，無論您的團隊掌握多少分散式訓練專業知識，都可以使用。

若要開始使用，請造訪 Amazon SageMaker HyperPod 產品頁面，並參閱無檢查點訓練 GitHub 頁面以了解實作指南。

Amazon SageMaker HyperPod 現在支援無檢查點訓練

了解

資源

開發人員

說明