AWS DevOps 代理
借助能够主动解决并预防事件的自主人工智能代理,推动运营卓越
为何选择 AWS DevOps 代理?
AWS DevOps 代理是您随时可用的运营队友,能够解决并主动预防事故,优化应用程序的可靠性和性能,并在 AWS、多云及本地环境中处理按需 SRE 任务。该代理像经验丰富的 DevOps 工程师一样调查事故并确定运营改进领域:通过了解您的应用程序及其关系,使用您的可观测性工具、运行手册、代码存储库和 CI/CD 管道,同时跨所有环境关联遥测、代码和部署数据。提出问题,获取即时且符合上下文的答案,并创建自定义图表和报告,这些内容您可以保存并与团队共享。
优势
AWS DevOps Agent 是您全天候待命的自主值班工程师。无论是在凌晨 2 点还是在高峰时段,该代理都会在警报触发时立即启动调查,以快速将应用程序恢复至最佳性能状态。AWS DevOps Agent 全天候自主处理事件,提供根本原因分析及解决方案。其利用对应用程序资源及关系的理解,快速掌握依赖关系和交互。AWS DevOps Agent 通过首选的通信渠道(如 Slack、ServiceNow 和 PagerDuty)自动路由观察结果、调查发现及缓解步骤,从而简化事件响应。
AWS DevOps 代理会分析历史事件的模式,提供切实可行的建议,从而强化四大关键领域:可观测性、基础设施优化、部署管道增强以及应用程序弹性。建议包括提供可供代理使用的规范,以便将实施工作交由您的编码代理或同事来更新应用程序或基础设施代码。这有助于实现持续改进,而无需管理待办事项列表。
AWS DevOps 代理通过安全地集成工作流程、可观测性工具、运行手册、代码存储库和 CI/CD 管道,使您能够访问运营数据中尚未开发的见解。AWS DevOps 代理提供与可观测性工具(如 Amazon CloudWatch、Dynatrace、Datadog、Grafana、New Relic 和 Splunk)以及代码存储库和 CI/CD 管道(如 Azure DevOps、GitHub 和 GitLab)的内置集成。您可以通过安全连接私有或远程 MCP 服务器,将 AWS DevOps 代理的集成能力扩展至其内置功能之外,从而实现与更多工具的集成,例如您组织的自定义工具、专业平台或专有工单系统。
AWS DevOps 代理凭借对您环境的深入了解,不仅能帮助您深入探索应用程序环境,还能让您创建、保存和分享自定义图表及报告,而不仅仅是提出问题。通过自然语言界面,查询资源运行状况、调查事件模式、跟踪部署以及探索预防建议。创建、保存并分享自定义图表和报告,助您追踪运营指标,并与团队分享见解。
客户
United Airlines
“United Airlines 每天运送超过 50 万名乘客。我们在混合云环境中部署了约 38000 个 Dynatrace OneAgents 监控,涵盖 500 多个 AWS 账户、20000 个 AWS Lambda 函数、Amazon ECS 微服务以及众多其他服务。在这种规模下,我们此前曾在不同领域使用多款功能相同的工具,这在故障排查过程中导致了信息断层和黑箱现象。配备 Dynatrace 的 AWS DevOps 代理彻底改变了这一现状。Dynatrace 能快速准确地检测问题,定位到相关应用程序层,随后代理会进行进一步调查,并提供精准的解决步骤——所有信息都会直接反馈至 Dynatrace。现在,我们无需在凌晨 3 点发起事件呼叫并来回切换工具,而是能通过单一管理平台直接获取解决方案。”
United Airlines 可靠性和可观测性首席工程师 Jason Eckhart
T-Mobile
“当 AWS 推出 DevOps 代理时,T-Mobile 从一开始就参与其中。作为设计合作伙伴,我们亲眼见证了 AWS DevOps 代理如何显著提升生产环境中的根本原因分析能力。来自用户的真实反馈直接影响了产品的演变方式。
我们的基础设施涵盖多个云环境和本地环境,而应用程序日志则集中存储在我们本地的 Splunk 部署中。AWS DevOps 代理能够与 Splunk 无缝集成,并在这些不同环境中对日志进行分析,这一功能的实现对我们继续测试该解决方案起到了重要作用。”
T-Mobile 技术运营高级副总裁 Aravind Manchireddy
西部州长大学
西部州长大学(WGU)是一所领先的在线大学,服务于超过 19.1 万名学生,该校是首批将 Amazon DevOps 代理部署到生产环境的机构之一,其部署时间甚至早于 re:Invent 上的预览版发布。作为 Dynatrace 的大规模用户,WGU 利用 DevOps 代理原生的 Dynatrace 集成功能,使 Dynatrace Intelligence 能够自动将问题记录路由至代理进行调查,并将丰富的调查发现直接反馈回 Dynatrace。
在最近的一次生产调查中,WGU 的 SRE 团队利用 DevOps 代理分析了服务中断事件,将预计的总解决时间从两小时缩短至仅 28 分钟,MTTR 因此缩短了 77%。该代理迅速锁定了 Lambda 函数配置中的根本原因,并揭示了此前仅存在于未被发现的内部文档中的关键运营知识。
“它提供了确凿证据,证实问题出在 Lambda 上。此次调查的指标几乎无可挑剔,与我们在前端观察到的情况完全吻合。” 他补充道:“昨天是一场巨大的胜利,如果我们能继续加快研究进度,这对我们组织来说将是一场难以言喻的胜利。” 凭借计划利用 DevOps 代理技能功能,WGU 有望进一步缩短调查时间。
西部州长大学技术运营总监 Angel Marchena
Zenchef
Zenchef 是一个餐厅技术平台,通过单一的免佣金系统帮助餐厅管理预订、桌位运营、电子菜单、支付以及顾客营销。一支专注于 DevOps 的团队负责管理多个业务部门的多个生产环境。公司在举办黑客松期间,出现了影响下游合作伙伴的 API 集成问题时,他们面临了一场真正的考验:当时的工程师正忙于活动,而监控系统中又没有显示出任何有价值的线索来指引他们找到问题所在。
团队并未让工程师退出黑客松,而是将问题提交给了 DevOps 代理。该代理系统地排查了问题,排除了身份验证作为诱因的可能性,将调查重点转向了 ECS 部署,最终将根本原因追溯到代码回归问题——新版本无法处理数据库中未识别的枚举值。整个调查过程仅耗时 20 至 30 分钟,与手动操作所需的 1 至 2 小时相比,耗时缩短了约 75%,调查发现也直接分享给了负责的工程师。
“在黑客松期间,我们几乎没有可用的带宽来进行调查——而且我们也不需要。我们总是力求抢先一步,否则这种主动调查往往难以实现。DevOps 代理正在开辟新的途径,帮助我们理解平台的行为。”
Zenchef 平台工程经理 Theo Massard
使用案例
事件响应及解决
AWS DevOps Agent 自主对事件进行分类处理,并引导团队快速解决问题。 AWS DevOps Agent 与可观测性工具、代码存储库和 CI/CD 管道集成,以关联和分析遥测、代码和部署数据,同时共享其假设、观察结果与调查发现。通过系统性调查,AWS DevOps Agent 可识别整个环境中由系统变更、输入异常、资源限制、组件故障及依赖关系问题而引发的问题的根本原因。
自动化事件协调
您可以使用交互式聊天发起并引导调查。AWS DevOps Agent 如同您运营团队的一员,直接在 ServiceNow 和 Slack 等协作工具中工作,共享调查发现并协调响应措施。有需要时,可直接从调查中创建 AWS Support 案例,为 AWS Support 专家提供即时上下文信息,从而加快问题解决速度。
预防未来运营事件
AWS DevOps Agent 分析历史事件的模式,提供切实可行的建议,从而强化四大关键领域:可观测性、基础设施优化、部署管道增强以及应用程序弹性。
加快按需 SRE 任务的处理速度
无需在不同控制台之间切换,即可即时获得针对运营问题的上下文相关解答。通过自然对话查询资源运行状况、调查事件模式、跟踪部署情况并探索建议。除问答以外,还可以创建、保存和共享自定义图表和报告,例如每日运营状况摘要或 4xx 错误趋势。系统会保存对话历史记录,因此您可以基于之前的查询继续操作,而不会丢失上下文。
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量