Amazon SageMaker HyperPod 中可擴展基礎模型開發的 Amazon EKS 支援
我們很高興宣布全面推出 SageMaker HyperPod 中的 Amazon EKS 支援,讓客戶能夠在 SageMaker HyperPod 上執行和管理其 Kubernetes 工作負載,這是一個專門打造的基礎架構,可用於開發能將模型訓練時間縮短高達 40% 的基礎模型 (FM)。
由於 Kubernetes 的可攜性、可擴展性及豐富的工具生態系統,許多客戶用於協調他們的 ML 工作流程。這些客戶希望繼續使用熟悉的 Kubernetes 介面,但仍需要以自動化的方式管理硬體故障。HyperPod 中的 EKS 支援結合了 SageMaker HyperPod 提供自我修復效能叢集的優點,以及受管 Kubernetes 服務 Amazon EKS 的容器化功能。透過此項推出,客戶可以在叢集建立期間執行深度運作狀態檢查,以減少訓練期間的失敗。此外,HyperPod 會自動更換故障的節點,並以超過一千個加速器的規模,從 AWS Trainium 和 Nvidia GPU 上的最後一個檢查點恢復訓練。客戶可以靈活地使用新的 HyperPod CLI 或其偏好的工具來提交、管理和監控工作負載。持久性叢集環境提供 ssm 存取權以及自訂叢集的能力。EKS 協調的 HyperPod 叢集也與 CloudWatch Container Insights 整合,透過自動探索 HyperPod 節點健康狀態並在精選儀表板中將狀態視覺化的方式,提供即時的可觀測性。
此版本已在提供 SageMaker HyperPod 的 AWS 區域全面推出,但歐洲 (倫敦) 除外。
若要進一步了解,請參閱下列資源清單:網頁、AWS 新聞部落格、文件、Github 儲存庫。