跳至主要内容

Amazon CloudWatch

人工智能运营

利用人工智能快速识别、诊断和修复运营问题

概述

利用 AWS 19 年来为全球数百万客户提供云服务所积累和完善的丰富运营经验。我们已应用人工智能和机器学习(ML)来帮助增强、加速和自动化您的云运营流程。AIOps 可让您轻松观察工作负载、加速运营故障排除,并采取措施来解决和修复运营问题,从而缩短平均恢复时间(MTTR)。 

在短时间内找到问题的根本原因

从 AWS 管理控制台的任意位置启动运营调查。您可以将 Amazon CloudWatch 配置为在警报触发时立即开始调查,或者从 Amazon Q 聊天中创建调查。CloudWatch 会在调查过程中与您协同工作、帮助您识别应用程序中的异常,并提出有关问题根本原因的假设。

开始播放 CloudWatch 调查交互式演示

Missing alt text value

利用修复建议迅速解决问题

Amazon CloudWatch 会提供相关的 AWS Systems Manager Automation 运行手册、AWS re:Post 文章以及其他文档,以便为常见的 AWS 问题推荐修复措施。您可以运行运行手册来解决问题,这样就可以让业务关键型应用程序快速恢复全面运行。

阅读文档中有关 Amazon CloudWatch 调查的信息

Missing alt text value

持续改善您的运营态势

Amazon CloudWatch 使用人工智能在几分钟内创建全面的事后分析报告。事件报告可帮助您更好地识别模式,实施预防措施,并通过结构化的事后分析持续改善您的运营态势。自动收集和关联关键运营遥测、服务配置和调查发现,进而生成推动运营改进的详细报告。  

在文档中了解自动事件分析和报告

Missing alt text value

为各种经验水平的操作人员助力

Amazon CloudWatch 会处理问题排查过程中的繁重工作,这样您就不必成为各种应用程序资源的专家了。在运营调查期间,CloudWatch 会筛选数十万个数据点,以便发现各项服务之间的关系,并了解它们是如何协同工作的。在分析发现结果之后,CloudWatch 会向您提出有关问题根本原因的潜在假设,并为您提供有关如何解决问题的指导。

查看示例调查

Missing alt text value

自动检测异常和模式

Amazon CloudWatch 利用高级机器学习(ML)来自动设置基准并检测遥测数据中的异常,而无需手动筛选指标和日志。获取有关峰值或异常模式的警报,以便在问题升级之前解决问题。CloudWatch 会突出显示反复出现的模式和关键值,例如严重性级别,从而帮助您迅速聚焦于相关日志或者比较一段时间内的行为,以便更快地发现问题。

阅读文档中有关 CloudWatch 异常检测的信息

Missing alt text value

使用自然语言查询遥测数据

无需学习复杂的查询语言,即可从遥测中提取洞察。您不必编写复杂的查询,只需使用通俗易懂的英语提问,例如“Show me the 10 slowest AWS Lambda requests in the last 24 hours”(显示过去 24 小时内最慢的 10 个 AWS Lambda 请求),随后,Amazon CloudWatch 会自动生成正确的语法。使用 CloudWatch Logs Insights 中的自然语言摘要功能,您可以从查询结果中生成摘要,以便帮助您快速识别问题,并从日志数据中获得切实可行的洞察。

阅读文档中有关如何使用自然语言查询自然语言摘要的信息

Missing alt text value

客户

Cedar Gate Technologies

医疗技术提供商 Cedar Gate Technologies 现在利用 Amazon CloudWatch 来加快调查速度并迅速解决问题,将识别运营问题根本原因的时间从两小时缩短至大约 30 分钟,这样一来,客户就能够持续为患者提供宝贵的护理。

Missing alt text value

Amazon Kindle

当使用 Amazon CloudWatch 来调查问题时,Amazon Kindle 的支持工程师将解决问题的速度提高了 65% 到 80%,这样可以帮助他们更快速地满足客户的需求,从而提供最佳的用户体验。 

Missing alt text value

Amazon Music

Amazon Music 的开发人员正在将 Amazon CloudWatch 用作全天候的助手来自动执行调查和识别问题的趋势,这样可以帮助他们在待命值班期间更快地采取行动。早期的使用表明,Amazon Music 解决问题的速度是原来的两倍,因此听众可以继续欣赏自己喜欢的歌曲。

Missing alt text value

SmugMug

照片管理平台 SmugMug 将使用 Amazon CloudWatch 来自动分析系统中的指标、日志和运营事件,这样,他们就能够在不到 20 分钟的时间内诊断大多数问题,速度最多可提高 50%。这样就由于减少了手动日志搜索而提高了运营效率,因此,他们的团队可以减少管理问题时花费的时间和资源,并将更多的时间投入到构建平台上,以便帮助摄影师为他们的数字店面招揽更多的生意。

Missing alt text value