Amazon SageMaker HyperPod 宣布推出新的可觀測性功能
張貼日期:
2025年7月10日
Amazon SageMaker HyperPod 的全新可觀測性功能藉由提供可全面了解各項運算資源和模型開發任務的能力,讓客戶加快生成式 AI 模型的開發速度。此功能讓客戶不必以手動方式,收集堆疊中的數百個指標、將這些指標之間的關聯性視覺化,然後恢復生成式 AI 模型開發任務的效能。 HyperPod 可觀測性會即時追蹤任務效能指標、在有任何指標惡化時提醒客戶,並使用客戶定義的政策自動修復根本原因。
SageMaker HyperPod 可觀測性改變了客戶對其生成式 AI 模型開發任務進行監控和最佳化的方式。透過 Amazon Managed Grafana 中預先設定的統一儀表板 (會自動將監控資料發佈到 Amazon Managed Prometheus 工作區),客戶現在可以在單一檢視中查看生成式 AI 任務的效能指標、資源使用率和叢集運作狀態。這可讓團隊快速發現瓶頸、避免代價高昂的延遲,並將運算資源最佳化。客戶只需按幾下滑鼠,即可定義自動化提醒、衍生出使用案例特定的任務指標,並將這些指標發佈到統一儀表板。這項功能藉由將疑難排解時間從幾天縮短為幾分鐘,幫助客戶加快生產途徑,並獲得最大的 AI 投資回報。
所有支援 SageMaker HyperPod 的 AWS 區域都能使用 SageMaker HyperPod 可觀測性 (美國西部 (加利佛尼亞北部) 和亞太區域 (墨爾本) 除外)。若要進一步了解並開始使用,請瀏覽部落格、文件和 SageMaker HyperPod 網頁。