AWS 正式宣佈 Amazon SageMaker HyperPod 訓練操作人員

張貼日期: 2025年6月30日

我們今日宣佈正式推出 Amazon SageMaker HyperPod 訓練操作人員，這是一個專門打造的 Kubernetes 擴充功能，用於在 HyperPod 上進行彈性基礎模型訓練。

Amazon SageMaker HyperPod 使客戶能夠透過內建彈性功能來加速涉及數百或數千個 GPU 的人工智慧模型開發，從而縮短高達 40% 的模型訓練時間。在訓練叢集不斷擴大的同時，訓練中斷的恢復作業也變得愈發困難。即使單一訓練流程失敗，故障復原作業通常也需要在所有節點上完全重新啟動工作，這會導致額外的停機時間並增加成本。此外，若要識別和解決重要的訓練問題 (例如 GPU 停擺、低訓練輸送量和數值不穩定)，通常需要複雜的自訂監控程式碼，這會進一步延長開發時間，並延遲上市時間。

有了 HyperPod 訓練操作人員功能，客戶可以進一步增強 Kubernetes 工作負載的訓練彈性。HyperPod 訓練操作人員不會在發生故障時完全重新啟動工作，而是會執行僅選擇性地重新啟動受影響訓練資源的精確復原，以便更快地從故障中恢復。它還導入了可自訂的停滯工作監控功能，能夠協助您透過簡單的 YAML 設定來克服棘手的訓練案例，包括訓練批次停滯、非數值化損失值和效能衰減。上手非常簡單：僅需建立 HyperPod 叢集、安裝訓練操作人員附加元件、選擇性地定義停滯工作的自訂復原政策，然後啟動訓練即可。

此版本於目前支援 SageMaker HyperPod 的所有 AWS 區域正式推出。

請參閱文件進一步了解相關資訊。

AWS 正式宣佈 Amazon SageMaker HyperPod 訓練操作人員

了解

資源

開發人員

說明