Amazon SageMaker HyperPod 现在为受限实例组提供全面的可观测性
发布于:
2026年3月4日
Amazon SageMaker HyperPod 现在为受限实例组 (RIG) 提供全面的可观测性,让使用 Nova Forge 训练基础模型的团队能够深入了解其计算资源和训练工作负载。这项新功能消除了在整个基础设施栈中手动收集和关联指标的工作,通过由 Amazon Managed Service for Prometheus 提供支持的预配置 Amazon Managed Grafana 控制面板,提供 GPU 性能、系统运行状况、网络吞吐量和 Kubernetes 集群状态的统一视图。
您现在可以通过单个 Grafana 控制面板监控 GPU 利用率、NVLink 带宽、CPU 压力、FSx for Lustre 使用情况以及容器组生命周期,通过四个导出器收集的指标涵盖了 GPU 性能、主机级系统运行状况、网络架构和 Kubernetes 对象状态。此外,这些控制面板会自动提供精选日志,涵盖 epoch 进度、步骤级训练日志、管道错误和 Python 回溯信息,帮助您快速诊断训练失败。当您使用 RIG 创建新集群时,针对受限实例组的 HyperPod 可观测性会自动启用;对于现有集群,也可在 HyperPod 集群管理控制台中单击几次完成启用。
Amazon SageMaker HyperPod RIG 可观测性适用于支持 SageMaker HyperPod RIG 的所有 AWS 区域。要了解更多信息,请访问文档。