发布于: Nov 2, 2021

Amazon DevOps Guru 现在为由 Amazon Elastic Kubernetes Service (EKS) 托管的集群支持更多节点和 Pod 级指标。

Amazon DevOps Guru 是一种采用机器学习 (ML) 技术的服务,可用于轻松提高应用程序的操作性能和可用性。当 Amazon DevOps Guru 在这些指标当中检测到异常行为时,它将创建包含与问题有关的建议和指标及事件列表的见解,以帮助您诊断并解决此类异常行为问题。

这些节点级指标有助于定位可能存在高内存、CPU 或文件系统利用率的特定节点,而不依赖于集群级聚合。Pod 级指标,其中包括 pod_cpu_utilization_over_pod_limit 和 pod_memory_utilization_over_pod_limit,将帮助确定哪些 Pod 将超过软限制,因此存在达到硬资源限制的风险,并且可能因为资源耗尽而发生错误。Amazon DevOps Guru 现在还会追踪容器重启,在发生提取映像问题或应用程序启动问题时通知您。我们将继续扩展对容器的 Amazon DevOps Guru 支持。

我们还推出新的控制台视图,它将在 Amazon DevOps Guru 控制台中显示按不同集群级指标分组的 Amazon EKS 见解。此视图将为您提供更高可见性,以了解 EKS 集群中可能存在的问题。例如,若某节点有网络连接问题或遇到磁盘压力问题,您将在按集群指标分组的下方看到该节点及命名空间异常,它将帮助您找到发生该问题的特定节点或命名空间。

要使用这些新功能,您将需要启用 Amazon EKS 上的容器见解

您可以通过从 CloudFormation 堆栈或 AWS 账户中选择覆盖范围来开始使用 Amazon DevOps Guru。要了解更多信息,请访问 DevOps Guru 产品页面文档页面,或将问题发布到 Amazon DevOps Guru 论坛。