发布于: Mar 11, 2024

Amazon CloudWatch Container Insights 具有 EKS 增强型可观测性,现在可以自动发现您的 NVIDIA GPU 中的关键运行状况和性能指标,并将各项指标发送到自动控制面板中,从而更快地对您的 AI/ML 工作负载进行问题隔离和故障排除。具有增强型可观测性的 Container Insights 为您提供针对基础设施运行状况的现成可用的趋势和模式,避免了手动控制面板和警报设置的开销,从而节省您的时间和精力。

在 Container Insights 上使用增强的可观测性,您现在可以轻松了解加速实例上的 GPU 和内存是否正常运行,并确保训练任务保持高性能。您可以轻松查明错误,并快速深入了解以确定根本原因,同时最大限度地减少训练任务的长时间中断次数。增强型 Container Insights 可在精选的可视化中提供加速型计算可观测性,使您能够轻松监控分布式训练模型消耗资源的效率,并相应地优化分配。

开始使用加速的计算可观测性的步骤非常简单。要使用增强型 Container Insights,您可以将 CloudWatch 可观测性附加组件安装到集群中,也可以手动安装 CloudWatch 代理以便启用增强型可观测性。配置完成后,您可以导航至 Container Insights 控制台,查看现成可用的 NVIDIA GPU 遥测。

现在,在所有公共 AWS 区域(包括 AWS GovCloud(美国)和中国区域)中,用户都可以通过 EKS 具有增强型可观测性的 Container Insights 来了解 NVIDIA GPU 指标。NVIDIA GPU 指标遵循基于观测的定价,有关详细信息,请参阅 Container Insights 定价页面。有关详细信息,请参阅 Container Insights 用户指南

04/22 - 博客已更新,提供了有关手动开始使用的说明。