在 Amazon SageMaker HyperPod 上推出彈性訓練

張貼日期: 2025年12月3日

Amazon SageMaker HyperPod 現在支援彈性訓練,可讓組織根據可用資源和工作負載優先順序,自動調整訓練工作負載規模,藉此加速基礎模型訓練。這代表藉由固定資源進行訓練的過程產生了徹底轉變,可省下數小時的工程時間,不必再根據運算可用性來重新設定訓練任務。

先前,若要對運算可用性做出任何變更,都需要手動停止訓練、重新設定訓練參數,並重新啟動任務,這個流程需要分散式訓練專業知識,且會讓昂貴的 AI 加速器在訓練任務重設期間處於閒置狀態。彈性訓練會自動擴展訓練任務,納入閒置 AI 加速器,並在高優先度工作負載需要資源時順暢收縮,過程中完全不必停止訓練。

彈性訓練可減少手動重新設定的負擔,並確保可持續運用可用運算,協助省下先前花費在基礎架構管理的時間、藉由最大化叢集使用量來降低成本,並加速上市時間。您可以透過最低資源展開訓練,且在容量許可的時機擴展。

SageMaker HyperPod 適用於目前提供 Amazon SageMaker HyperPod 的所有區域。組織可以運用 HyperPod 配置,針對公開可用模型 (包括 Llama 和 GPT OSS) 啟用彈性訓練,而無需變更程式碼。對於自訂模型架構,客戶可以透過輕量組態更新,在程式碼修改量最低的狀況下整合彈性訓練功能,無論您的團隊掌握多少分散式系統專業知識,都可以使用。

若要開始使用,請造訪 Amazon SageMaker HyperPod 產品頁面,並參閱彈性訓練文件以了解實作指南。