Container Insights 現在宣布在 EKS 上推出 SageMaker HyperPod 節點健康可觀測性
Amazon CloudWatch Container Insights 現在會自動發現在 EKS 上執行的 SageMaker HyperPod 節點其健康狀態,並在精選的儀表板中將狀態視覺化,來協助您監控節點可用性,以達成卓越的作業效果。使用立即可用的儀表板,您可以輕鬆識別不健康的節點並快速緩解,以實現有效的訓練持續時間。
Container Insights 與 SageMaker 合作收集 HyperPod 節點的深度運作狀態檢查測試結果,並在預設儀表板中顯示結果,以幫助您了解節點的健康狀況和效能,並確定它們是否準備好進行排程。Container Insights 可協助您最佳化訓練持續時間,方法是將失敗的節點分類為「等待重新啟動」和「等待取代」,並指導您在自動節點更換停用的情況下如何維持節點健康狀態。如果自動復原已啟用,您可以了解節點變動、訓練工作的延遲,並了解任務如何從最後一次檢查點繼續。
輕鬆開始使用 Container Insights。採用方式是將 CloudWatch Observability EKS 附加元件或最新的 CloudWatch 代理程式安裝到叢集中,或使用最新版的 CloudWatch Agent 升級 Helm Chart。設定後,您可以瀏覽至 Container Insights 主控台,並即時檢視您的 SageMaker Hyperpod 節點健康狀態。
SageMaker HyperPod 節點健康可觀測性現已於提供 SageMaker HyperPod 的所有商業區域中的 Container Insights for EKS 推出。HyperPod 節點健康指標遵循以觀測為基礎的定價,請參閱 Container Insights 定價頁面以取得詳細資詳細資訊。如需進一步資訊,請參閱 Container Insights 使用者指南。