跳至主要内容

AWS DevOps Agent

AWS DevOps Agent 的功能

始终在线的自主事件响应

全部打开

AWS DevOps Agent 可与 ServiceNow 等工单和告警系统集成,能从事件工单中自动启动调查流程,在您现有工作流内加速事件响应速度,进而缩短平均解决时间(MTTR)。

您还可以使用交互式聊天发起并引导调查。AWS DevOps Agent 如同您运营团队的一员,直接在 ServiceNow 和 Slack 等协作工具中工作,共享调查发现并协调响应措施。有需要时,可直接从调查中创建 AWS Support 案例,为 AWS Support 专家提供即时上下文信息,从而加快问题解决速度。

AWS DevOps Agent 与可观测性工具、代码存储库和 CI/CD 管道集成,以关联和分析遥测、代码和部署数据,同时共享其探索的假设、观察结果和根本原因调查发现。通过系统性调查,AWS DevOps Agent 可识别整个环境中由系统变更、输入异常、资源限制、组件故障及依赖关系问题而引发的问题的根本原因。

AWS DevOps Agent 确定根本原因后,将提供详细的缓解计划,其中包括解决事件、验证成功以及在需要时恢复更改的措施。AWS DevOps Agent 还提供可由其他前沿代理实施的代理就绪型指令,例如,可由 Kiro 自主代理实施的代码改进。

AWS DevOps Agent 会对整个堆栈中由系统变更、输入异常、资源限制、组件故障以及依赖关系问题引发的告警进行系统性调查,为 DevOps 团队提供针对性的缓解步骤,将平均解决时间(MTTR)从数小时缩短至几分钟。 例如:

  • 系统变更:如果事件是由于近期代码变更导致 Amazon DynamoDB 被节流(低效使用引发高延迟)造成的,AWS DevOps Agent 可能会建议回滚该变更,以此作为即时缓解措施。
  • 系统变更如果事件是由于代码部署后筛选策略不匹配导致 Amazon SNS 订阅出错造成的,AWS DevOps Agent 可能会建议回滚修改了消息结构的代码变更,以此作为即时缓解措施来恢复消息流。
  • 输入异常:如果事件是由于流量超出限制导致 AWS Lambda 在处理通知时被节流造成的,AWS DevOps Agent 可能会建议提高并发限制,以此作为即时缓解措施。
  • 输入异常:如果事件是由于消息大小问题导致 Amazon SNS 消息发布失败造成的,AWS DevOps Agent 可能会建议在 Amazon SNS 消息发布流程中增加校验步骤,以此作为即时缓解措施。
  • 资源限制:如果事件是由超出速率限制导致的 API 限制造成的,AWS DevOps Agent 可能会建议提高速率/突发限制,以此作为立即缓解措施。
  • 资源限制:如果事件是由于写入容量超出导致的 Amazon DynamoDB 限制导致的,AWS DevOps Agent 可能会建议增加写入容量,以此作为即时缓解措施。
  • 组件故障:如果事件是由于性能下降导致的冷启动延迟造成的,AWS DevOps Agent 可能会建议增加预置并发性,以此作为即时缓解措施。

主动预防未来事件

全部打开

AWS DevOps Agent 会分析历史事件的模式,提供切实可行的建议,从而强化四大关键领域:可观测性、基础设施优化、部署管道增强以及应用程序弹性。例如,在基础设施优化领域,AWS DevOps Agent 可能会建议为 EKS 集群启用 Kubernetes Horizontal Pod Autoscaler(HPA),以应对意外流量峰值。 

AWS DevOps Agent 可以识别可观测性覆盖范围的缺口以及优化警报的机会,从而缩短平均检测时间(MTTD),让您可以提前发现隐患,以免其发展为更大的问题。例如,在发现近期故障的事件检测耗时过长后,AWS DevOps Agent 可能会建议在更靠近错误源的位置实施监控与异常检测,以缩短检测时间,防止长时间停机。

通过学习循环机制,AWS DevOps Agent 将持续优化建议,匹配您的运维优先级,并根据团队对建议的反馈,不断提供更贴合您组织需求的建议。

AWS DevOps Agent 会分析历史事件的模式,提供有针对性的建议,以防将来出现中断并增强系统弹性。该服务通过评估真实事件,提供具体且切实可行的改进,从四个主要领域降低同类问题的发生频率和影响:可观测性、基础设施优化、部署管道增强应用程序韧性

  • 可观测性改进:针对关键身份验证系统,AWS DevOps Agent 可能会建议将警报阈值从“20 分钟内出现 15 次故障”调整为“5 分钟内出现 3 次故障”,以缩短检测时间,防止长时间的集成中断。
  • 可观测性改进:AWS DevOps Agent 可能会建议实施有针对性的 CloudWatch 指标筛选条件,以跟踪 IAM 角色变更时异常的“访问被拒绝”模式,从而获得比之前的警报机制更快的检测速度。
  • 基础设施改进:分析发现 Amazon DynamoDB 表的架构与服务的主要访问模式不匹配,导致全表扫描效率低下后,AWS DevOps Agent 会建议创建全局二级索引(GSI),并将高频查询的属性设为分区键。这会将操作从“扫描”转变为“查询”,将延迟从 2500-3500 毫秒降至 100 毫秒以内,同时防止节流。
  • 基础设施改进:AWS DevOps Agent 的分析显示,应用程序本身资源充足,但受制于单容器组(pod)瓶颈,流量高峰时所有请求都会在一个实例中排队。AWS DevOps Agent 可能会建议为 Kubernetes 集群添加 Horizontal Pod Autoscaler,它会根据需求自动横向扩展服务,将负载有效分发到多个容器组(pod)。
  • 部署管道:在分析 Amazon ECS 部署失败的情况后,AWS DevOps Agent 可能会建议启用自动回滚功能,并通过 Amazon EventBridge 监控部署状态。这些调整能快速检测并处理任务运行状况检查失败的问题,防止客户交易中断。
  • 部署管道:分析部署失败问题后,AWS DevOps Agent 可能会建议在 Amazon ECS 任务定义中强制执行 Amazon Managed Service for Prometheus 连接性的部署前验证。该建议会在部署过程中检测连接性问题,从而减少部署失败的情况。  

充分利用您的 DevOps 工具

全部打开

随着 AWS DevOps Agent 逐步了解您的环境,它会识别容器、网络组件、日志组、警报、CI/CD 部署等应用程序资源,并绘制这些资源的关联,从而创建应用程序资源映射图。它会将该资源拓扑与您的遥测数据、代码、部署数据结合,以精准查明问题的根本原因。

AWS DevOps Agent 内置与多款可观测性工具(Amazon CloudWatch、Dynatrace、Datadog、New Relic、Splunk)、代码存储库,以及 CI/CD 管道(GitHub Actions 及存储库、GitLab Workflows 及存储库)的集成。 

您可以通过连接自有 MCP 服务器,将 AWS DevOps Agent 的集成能力扩展至其内置功能之外,从而实现与更多工具的集成,例如您组织的自定义工具、专业平台或专有工单系统。例如,连接自有 MCP 服务器后,您可以集成开源可观测性信号,如 Grafana 警报和 Prometheus 指标,以及 Confluence 中的运行手册。 

找到今天要查找的内容了吗?

请提供您的意见,以便我们改进网页内容的质量。