Amazon DevOps Guru

提高应用程序可用性的采用机器学习技术的云运营服务

Amazon DevOps Guru 是一种采用机器学习 (ML) 技术的服务,可用于轻松提高应用程序的操作性能和可用性。DevOps Guru 检测偏离正常操作模式的行为,这样您就可以在操作问题影响您的客户之前及早地识别出它们。

DevOps Guru 利用经过 Amazon.com 多年经验和 AWS 卓越运营训练的机器学习模型来识别异常的操作行为(例如延迟、错误率、资源限制增加等)并显示可能导致潜在停机或服务中断的关键问题。当 DevOps Guru 识别出一个关键问题时,它会自动发送警报,并提供相关异常的摘要、可能的根本原因以及关于问题发生时间和地点的上下文。在可能的情况下,DevOps Guru 还会提供如何修复问题的建议。

DevOps Guru 从您的 AWS 应用程序中自动提取操作数据,并提供单一控制面板来可视化您的操作数据问题。您可以开始使用 DevOps Guru 来提高应用程序可用性和可靠性,无需人工步骤或机器学习专业知识。

DevOps_Guru_Dashboard
Amazon DevOps Guru 控制面板
 单击可放大
DevOps_Guru_Dashboard

优势

2_icon_2_resolve_issues

自动检测操作问题

使用机器学习,Amazon DevOps Guru 可自动收集和分析应用程序指标、日志和事件等数据,并识别与正常操作模式偏离的行为。它将自动检测和并对操作问题和风险发出警报,例如即将发生的资源耗尽、可能导致停机、内存泄漏、计算容量预置不足和数据库 I/O 过度使用的代码和配置更改。

2_icon_1_auto_detect

利用采用机器学习技术支持的见解快速解决问题

Amazon DevOps Guru 通过将异常行为和操作事件关联起来,帮助减少识别和解决问题根本原因的时间。当问题发生时,DevOps Guru 会生成包含相关异常摘要、问题的上下文信息的见解,并在可能的情况下提供可操作的修复建议。

2_icon_3_easily_scale

轻松扩展并维护可用性

Amazon DevOps Guru 为您节省了手动更新静态规则和警报所涉及的时间和精力,从而使您可以有效地监控复杂且不断发展的应用程序。当您迁移或采用新的 AWS 服务时,DevOps Guru 会自动分析它们的指标、日志和事件。然后,它将生成见解,以帮助您轻松适应变化的行为和不断发展的系统架构。

2_icon_4_reduce_noise

减少噪声和警报疲劳


AmazonDevOps Guru 可通过使用预先训练好的机器学习模型来关联和对相关的异常进行分组,并显示最关键的警报,从而帮助开发人员和 IT 操作人员减少警报噪音、克服警报疲劳。使用 DevOps Guru,您可以减少管理多个监控工具和警报的需要,这意味着您可以专注于问题的根本原因和修复措施。

工作原理

Amazon-DevOps-Guru_Diagram-V1_news
4_promo_icon


Amazon DevOps Guru 预览版

使用案例

操作审计

您可以使用 Amazon DevOps Guru 来快速汇总已根据严重程度确定和排序的所有重大操作事件。使用系统运行状况控制面板,您可以搜索特定应用程序的问题、识别趋势并决定开发人员应将他们的时间和资源花在哪里。

主动资源耗尽计划

为可耗尽资源(如内存、CPU 和磁盘空间)构建预测警报。Amazon DevOps Guru 可预测资源利用率何时将超过预置的容量,并通过在控制面板中创建通知来通知您,以帮助您避免即将发生的停机。

预防性维护

使用 Amazon DevOps Guru,您可以在事故发生前预防它们发生。DevOps Guru 将标记可能不重要的中等和低严重程度发现结果,但如果放任不管,它会随着时间的推移而恶化,并影响应用程序的可用性。这将有助于您优化并避免不可预见的停机。例如,DevOps Guru 将通知您已达到 Auto Scaling 组的限制、延迟模式发生更改或 API 调用量增加。DevOps Guru 还会确定 AWS 最佳实践,以帮助您提高应用程序的整体可用性。 

客户

NextRoll
“我们运行了数千个 EC2 实例,我一直在寻找方法来减少我的团队在解决操作问题上花费的时间。我们很高兴能够使用 Amazon DevOps Guru,并利用它采用机器学习技术的见解来帮助我们识别、关联和修复操作问题。这将帮助我的团队节省时间,并减少我们的平均恢复时间 (MTTR)。”

- Valentino Volonghi
NextRoll 首席技术官

SmugMug
“我的团队遵循“为生命服务”的座右铭,我们一直在寻找将人工活动自动化的方法。我们希望通过使用 Amazon DevOps Guru 实现这个目标,并让 AIOps 接管我们的日常任务,这样我的团队就可以专注于 IT 创新。现在,我们不仅能够满足业务需求,而且还能够超越它们,因为我们有更多的时间来专注于最重要的事情——为我们的组织和客户提供价值。”

- Andrew Shieh
SmugMug 的运营总监

Thomson Reuters
“客户体验对我们来说至关重要。在尝试预防和减轻影响客户的事故时,处理可用性、性能和更改请求的多个警报源可能是一项挑战。我们很高兴能够使用 Amazon DevOps Guru 并利用它采用机器学习技术的见解来提供明确的行动路径。这使我们能够快速缓解问题,避免影响客户的事件。与 PagerDuty 集成是一项额外的益处,因为我们可以及时有效地向适当的人提出建议。

- Steve Thoennes
基础设施托管产品组合总监

合作伙伴

Atlassian
“Atlassian 非常自豪能够在 DevOps Guru 发布时支持Amazon,并帮助增强团队部署代码和操作服务的信心。通过我们新的 Opsgenie 和 Jira 服务管理集成,当 DevOps Guru 预测潜在问题或确定发生了事故时,可以立即通知适当团队。DevOps Guru 提供新的见解维度,而 Atlassian 则确保最快的响应。”

- Emel Dogrusoz
Opsgenie 产品主管

PagerDuty
“PagerDuty 通过使用解决方案自动化整个事故响应生命周期,来推动向开发运维文化的转变。我们很高兴能够通过与 Amazon DevOps Guru 的最新集成,继续致力于开发运维。利用 Amazon 数十年的卓越运营经验和 DevOps Guru 的机器学习能力,PagerDuty 为我们的联合客户提供了更多的实时信号转行动功能。通过 PagerDuty 对 DevOps Guru 的 Amazon Simple Notification Service (SNS) 通知的提取,AWS 可以在操作问题变成影响客户的中断之前实时对其采取行动。”

- Jonathan Rende
产品 SVP

7_bottom_promo_icon

自动执行代码审查
通过 Amazon CodeGuru 更快、更早地发现代码问题

Product-Page_Standard-Icons_01_Product-Features_SqInk
查看产品功能

轻松地构建复杂的个性化功能
到您的应用程序中

了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册免费账户

立即享受 AWS 免费套餐。 

注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建

在 AWS 管理控制台中,使用 Amazon DevOps Guru 开始构建。

登录