发布于: Apr 23, 2024

具有 EKS 增强型可观测性的 Amazon CloudWatch Container Insights 现在会自动发现来自 Amazon Web Services 加速器 Trainium 和 Inferentia、Amazon Web Services 高性能网络适配器(Elastic Fabric Adapter)以及 NVIDIA GPU 的关键运行状况指标。您可以在精选 Container Insights 仪表板中对这些现成的指标进行可视化,以帮助监控加速的基础设施并优化 AI 工作负载以实现卓越运营。 

您现在可以使用 Enhanced Container Insights,轻松地将计算和内存指标与节点间网络指标关联起来,以帮助了解流量对在 EKS 集群上运行的任务的影响,例如监控延迟敏感的训练作业。Enhanced Container Insights 使您能够通过分布式深度学习和推理算法轻松监控资源消耗效率,从而优化资源分配并最大限度地减少应用程序的长时间中断。Enhanced Container Insights 通过自动可视化提供加速的计算可观测性,无需手动创建仪表板和设置警报。

开始使用加速的计算可观测性的步骤非常简单。您可以通过在集群中安装 CloudWatch Observability 插件或手动安装 CloudWatch Agent 来采用 Enhanced Container Insights,从而实现增强型可观测性。配置完成后,您可以导航至 Container Insights 控制台,查看现成可用的加速型计算遥测。

所有商用 AWS 区域(包括 AWS GovCloud(美国)和中国区域)EKS 的 Enhanced Container Insights 现已提供加速的计算可观测性。加速的计算指标遵循基于观测的定价,有关详细信息,请参阅 Container Insights 定价页面。有关详细信息,请参阅 Container Insights 用户指南