在 Amazon SageMaker HyperPod 上推出彈性訓練

張貼日期: 2025年12月3日

Amazon SageMaker HyperPod 現在支援彈性訓練，可讓組織根據可用資源和工作負載優先順序，自動調整訓練工作負載規模，藉此加速基礎模型訓練。這代表藉由固定資源進行訓練的過程產生了徹底轉變，可省下數小時的工程時間，不必再根據運算可用性來重新設定訓練任務。

先前，若要對運算可用性做出任何變更，都需要手動停止訓練、重新設定訓練參數，並重新啟動任務，這個流程需要分散式訓練專業知識，且會讓昂貴的 AI 加速器在訓練任務重設期間處於閒置狀態。彈性訓練會自動擴展訓練任務，納入閒置 AI 加速器，並在高優先度工作負載需要資源時順暢收縮，過程中完全不必停止訓練。

彈性訓練可減少手動重新設定的負擔，並確保可持續運用可用運算，協助省下先前花費在基礎架構管理的時間、藉由最大化叢集使用量來降低成本，並加速上市時間。您可以透過最低資源展開訓練，且在容量許可的時機擴展。

SageMaker HyperPod 適用於目前提供 Amazon SageMaker HyperPod 的所有區域。組織可以運用 HyperPod 配置，針對公開可用模型 (包括 Llama 和 GPT OSS) 啟用彈性訓練，而無需變更程式碼。對於自訂模型架構，客戶可以透過輕量組態更新，在程式碼修改量最低的狀況下整合彈性訓練功能，無論您的團隊掌握多少分散式系統專業知識，都可以使用。

若要開始使用，請造訪 Amazon SageMaker HyperPod 產品頁面，並參閱彈性訓練文件以了解實作指南。

在 Amazon SageMaker HyperPod 上推出彈性訓練

了解

資源

開發人員

說明