AWS 正式宣佈 Amazon SageMaker HyperPod 訓練操作人員
我們今日宣佈正式推出 Amazon SageMaker HyperPod 訓練操作人員,這是一個專門打造的 Kubernetes 擴充功能,用於在 HyperPod 上進行彈性基礎模型訓練。
Amazon SageMaker HyperPod 使客戶能夠透過內建彈性功能來加速涉及數百或數千個 GPU 的人工智慧模型開發,從而縮短高達 40% 的模型訓練時間。在訓練叢集不斷擴大的同時,訓練中斷的恢復作業也變得愈發困難。即使單一訓練流程失敗,故障復原作業通常也需要在所有節點上完全重新啟動工作,這會導致額外的停機時間並增加成本。此外,若要識別和解決重要的訓練問題 (例如 GPU 停擺、低訓練輸送量和數值不穩定),通常需要複雜的自訂監控程式碼,這會進一步延長開發時間,並延遲上市時間。
有了 HyperPod 訓練操作人員功能,客戶可以進一步增強 Kubernetes 工作負載的訓練彈性。HyperPod 訓練操作人員不會在發生故障時完全重新啟動工作,而是會執行僅選擇性地重新啟動受影響訓練資源的精確復原,以便更快地從故障中恢復。它還導入了可自訂的停滯工作監控功能,能夠協助您透過簡單的 YAML 設定來克服棘手的訓練案例,包括訓練批次停滯、非數值化損失值和效能衰減。上手非常簡單:僅需建立 HyperPod 叢集、安裝訓練操作人員附加元件、選擇性地定義停滯工作的自訂復原政策,然後啟動訓練即可。
此版本於目前支援 SageMaker HyperPod 的所有 AWS 區域正式推出。
請參閱文件進一步了解相關資訊。