Amazon CloudWatch Container Insights 现在支持 Amazon EKS 上的 Neuron UltraServers
发布于:
2025年11月21日
Amazon CloudWatch Container Insights 现在支持 Amazon EKS 上的 Neuron UltraServers,为在多实例节点上运行大规模、高性能机器学习工作负载的客户提供增强的可观测性。这项新功能让数据科学家和机器学习工程师能够高效地监控其容器化机器学习应用程序并对其进行故障排除,并提供跨 Neuron UltraServer 组的聚合指标和简化的管理方式。
Neuron UltraServers 将多个 EC2 实例组合成一个逻辑服务器单元,并针对使用 AWS Trainium 和 Inferentia 加速器的机器学习工作负载进行了优化。Container Insights 是 Amazon CloudWatch 中的一项监控和诊断功能,可以自动从容器化应用程序收集指标。在此次发布中,Container Insights 推出了一项专门用于 EKS 环境中的 UltraServers 的全新筛选功能。现在,您可以选择 UltraServer ID 来查看该服务器内所有实例的新聚合指标,从而无需再分别监控各个实例。除了每个实例的指标外,您现在还可以查看整个 UltraServer 组的汇总性能数据,从而简化对在 AWS Neuron 上运行的机器学习工作负载的监控。
Amazon CloudWatch Container Insights 已在所有 AWS 商业区域和 AWS GovCloud(美国)推出。
要开始使用,请参阅《Amazon CloudWatch 用户指南》中的 AWS Trainium 和 AWS Inferentia 的 AWS Neuron 指标。