通过解决问题、主动监控和数据驱动型洞察,优化 AWS 资源的性能和可用性,以实现流畅、高效、安全的云运营。
通过显示数据以快速诊断问题的根本原因,缩短解决问题的平均时间(MTTR)。
统一容器和无服务器服务中的端到端可观测性和分析,因此消除了各项服务中的繁琐的标记和事件关联。
监控容器和无服务器工作负载并进行故障排查,以提高弹性和效率。例如,借助 CloudWatch 中由人工智能和机器学习提供支持的功能,您可以使用自然语言查询日志和指标、分析模式和检测异常以及自动屏蔽 CloudWatch 日志中的敏感数据。
利用 Amazon Bedrock 和 Amazon CloudWatch 的强大功能,有效地监控和优化生成式人工智能应用程序的性能。您可以使用 CloudWatch Container Insights 自动发现和监控 Amazon EKS 集群中的 NVIDIA GPU 的关键运行状况指标,以深入了解资源利用率、可用性和延迟。分析 CPU、内存、GPU 和网络指标,以优化效率并尽早发现潜在的瓶颈或异常。
您可以使用 CloudWatch 控制面板和警报监控关键运行指标,例如执行持续时间、错误和限制,以深入了解无服务器应用程序的性能。此外,您还可以使用 CloudWatch Logs Insights 分析日志数据和分布式跟踪,以确定潜在的瓶颈。利用这些 CloudWatch 功能,您可以优化无服务器架构,以节省成本和提高效率。
CloudWatch Container Insights 为 AWS Fargate、Amazon ECS 和 Amazon EKS 提供了全面的运行状况和性能指标,包括集群、节点、服务和容器级数据。您还可以集成 EKS 控制面板和 KubeState 指标,以分析和确定问题的根本原因。