Amazon CloudWatch Container Insights 为 Amazon EKS 新增以秒级频率采集的 GPU 指标

发布于: 2025年11月21日

Amazon CloudWatch Container Insights 现在支持针对运行在 Amazon EKS 上的人工智能和机器学习工作负载,以秒级频率采集 GPU 指标。客户可以将指标采样频率配置为以秒为单位,从而更精细地监控 GPU 资源利用率。

这项增强功能让客户能够有效地监控运行时间短于 60 秒的 GPU 密集型工作负载,例如在短时间内消耗 GPU 资源的机器学习推理作业。通过提高采样频率,客户可以持续获得短暂运行的 GPU 工作负载的详细信息。以秒级频率采集的 GPU 指标数据会每分钟发送到 CloudWatch 一次。这种精细监控可以帮助客户优化其 GPU 资源利用率,解决性能问题,并确保其容器化 GPU 应用程序高效运行。

Container Insights 中以秒级频率采集的 GPU 指标已在所有 AWS 商业区域和 AWS GovCloud(美国)区域推出。

要了解有关 Container Insights 中以秒级频率采集的 GPU 指标的更多信息,请访问《Amazon CloudWatch 用户指南》中的 NVIDIA GPU 指标页面。使用 Container Insights 中以秒级频率采集的 GPU 指标无需额外付费。有关 Container Insights 定价,请参阅 Amazon CloudWatch 定价页面