Amazon SageMaker HyperPod 現在提供適用於受限執行個體群組的全面可觀測性

張貼日期: 2026年3月4日

Amazon SageMaker HyperPod 現在為受限執行個體群組 (RIG) 提供全面的可觀測性,讓團隊能夠使用 Nova Forge 訓練基礎模型,以深入了解其運算資源和訓練工作負載。這項新功能消除了在基礎結構堆疊中收集和關聯指標的手動工作,透過由 Amazon Managed Service for Prometheus 支援的預先設定 Amazon Managed Grafana 儀表板提供 GPU 效能、系統運作狀態、網路輸送量和 Kubernetes 叢集狀態的統一檢視。

現在,您可以從單一 Grafana 儀表板監控 GPU 使用率、NVLink 頻寬、CPU 壓力、FSx for Lustre 使用情況,以及 Pod 生命週期,並存取跨四個匯出程式所收集到的指標,包括 GPU 效能、主機層級系統運作狀態、網路網狀架構和 Kubernetes 物件狀態。此外,這些儀表板中會自動提供精選日誌,其涵蓋 epoch 進度、步驟層級的訓練日誌、管道錯誤,以及 Python 回溯,使您可以快速診斷訓練失敗。當您使用 RIG 建立新叢集時,系統會自動啟用適用於受限執行個體群組的 HyperPod 可觀測性,您也可在 HyperPod 叢集管理主控台中按幾下來為現有叢集加以啟用。

在支援 SageMaker HyperPod RIG 的所有 AWS 區域中皆可以使用 Amazon SageMaker HyperPod RIG 可觀測性。若要進一步了解,請參閱文件