亚马逊AWS官方博客

Tag: Amazon CloudWatch

芯片设计-如何在缺少 CAD 团队的情况下进行异常日志分析

国内大部分半导体设计公司都面临缺少CAD工程师的局面。缺少CAD团队影响设计效率成为一个日益显著的问题。缺少CAD团队意味着缺少开发设计流程工具,缺乏流程管理,无法为作业失败后的日志分析提供良好的排查指导。本文以回归测试举例,阐述在回归测试过程中,当作业失败,需要针对异常状况进行分析时,提供一个简单的排查流程指导。各位可以根据公司自身的状况进行定制化设计,并通过异常分析流程在缺少CAD团队的情况下提升开发效率。

Read More

使用 Amazon CloudWatch Lambda 见解提高运营可见性

为了平衡成本,同时确保满足业务需求所需的服务级别,一些客户选择持续监控和优化其 AWS Lambda 函数。他们收集和分析指标和日志以监控性能,并隔离错误以进行故障排除。此外,他们还试图通过测量函数持续时间、CPU 使用率和内存分配来调整函数配置的大小。使用各种工具和数据源来完成此操作可能非常耗时,有些甚至要构建自己的自定义控制面板来显示和分析这些数据。

Read More

企业微信、钉钉接收 Amazon CloudWatch 告警

我们看到国内很多AWS用户,在使用企业微信和钉钉作为内部工作沟通平台。他们希望将Amazon CloudWatch接收到的监控、告警信息发送到企业微信和钉钉等即时通讯工具中,方便统一运维业务系统。
本Blog的目的是,为了指导希望使用微信和钉钉接收AWS CloudWatch告警的用户,如何使用AWS 的SNS 、Lambda等Service快速的实现目的。

Read More

CloudWatch 警报和 OpsCenter 的全新集成

一年多前,我写了一篇关于称为 OpsCenter 的功能在 AWS Systems Manager 中启动的文章,该功能允许客户将问题、事件和警报聚合到一个位置,使运营工程师和 IT 专业人员能够更加轻松地调查和补救问题。今天,我要高兴地向大家宣布这项功能与 Amazon CloudWatch 警报进行了全新集成。

Read More

使用 AWS Batch 与 Amazon CloudWatch 规则调度并运行 Amazon RDS 作业

本文演示了如何将多项不同AWS服务集成起来,进而在PostgresSQL数据库上调度及运行作业的方法。您可以使用同样的解决方案在任意RDS数据库上运行作业,或者编排复杂的作业工作流——唯一的区别是,您需要在Docker容器内添加兼容的python适配器,并将其导入python脚本当中。 此外,这套解决方案还可帮助您利用AWS Batch与CloudWatch规则建立起CI/CD工具链,借此管理一切指向作业及调度计划的变更。

Read More

利用 Amazon CloudWatch 指标做出更好的 Amazon RDS 决策

本文讨论了与 Amazon RDS 和性能详情相关的 CloudWatch 指标以及如何利用这些指标做出您的数据库决策。这些指标可以帮助您决定计算和存储扩展、数据库引擎性能调整和工作负载修改。 本文还回顾了 Amazon RDS 提供的各种存储类以及 Amazon Aurora 的工作方式与使用 EBS 卷的 Amazon RDS 实例的工作方式有哪些不同。这些知识可以帮助您排除故障、评估和决定 Amazon RDS 修改。

Read More

SAP on AWS Multi-AZ (HA) working with Oracle Data Guard

众多企业客户在SAP ERP系统规划阶段选择Oracle作为ERP后端数据库。随着企业本地数据中心硬件设备全生命即将结束或客户计划以云平台作为其下一步IT投资方向,客户希望将保持现有运行环境作为前提将现有SAP系统迁移入云。本文以云上合规作为前置条件说明AWS平台上基于Oracle原生功能的跨可用区高可用实现。

Read More

使用 Amazon Connect 与CloudWatch 联动实现电话通知云端告警

用户在使用AWS云服务的时候,需要对关键服务的性能、可靠性等指标进行实时监控,在出现监控指标异常的时候,需要及时通知云管理人员,对异常服务进行查看并修复。越来越多的用户把生产环境部署在云端,这就要求云端业务需要7X24处于可用状态,即便目前AWS平台已经有了使用邮件、短信通知等方式发送告警的功能,但是在一些重大事件发生的时候,用户还是希望AWS平台能够直接拨打相关运维人员的手机,以便更快速地进行告警发送。
在这篇文章中,我们会探讨在AWS上使用Amazon Connect服务,结合CloudWatch监控,在出现重要事件的时候,拨打相关人员的电话,达到及时通知的目的。

Read More

全新 – Amazon CloudWatch 高精度自定义指标和警报

Amazon CloudWatch 自 2009 年年初以来一直是 AWS 的重要组成部分。CloudWatch 与 Auto Scaling 和 Elastic Load Balancing 三个产品包组合在一起发布,它已发展成为功能极强、面向 AWS 云中运行的 AWS 资源和应用程序的监控服务。CloudWatch 自定义指标 (早在 2011 年发布) 可用在 CloudWatch 中存储业务和应用程序指标、以图形方式查看这些指标,并基于 CloudWatch 警报启动操作。不用说,这些年来,我们的 CloudWatch 增强了很多的功能!最近的一些增强功能包括延长指标保留期 (以及一项用户界面更新)、控制面板、控制面板 API/CloudFormation 支持以及控制面板上的警报。 一开始,指标是按照五分钟的时间间隔存储的;后来,在 2010 年,应客户请求缩短到一分钟 (也称为详细监控)。这是一个广受欢迎的改变,但现在我们可以做得更好。我们的客户在流式传输视频、开展限时抢购、每天上百次部署代码,并随着情况的变化非常快速地扩展和缩减应用程序。对于所有这些情况,一分钟为时间间隔还是太长了。这样有可能错过重要的瞬间高峰;分散 (然而事实上相关) 的事件难以跨越时间进行关联,并且在发生故障时的 MTTR (平均修复时间) 过高。 全新的高精度指标 今天,我们将增加对高精度自定义指标的支持,我们还计划以后逐渐增加对 AWS 服务的支持。现在您的应用程序可以以 1 秒的精度将指标发布到 CloudWatch。在发布指标数秒后您就可以在屏幕上滚动查看这些指标,您还可以设置高精度 CloudWatch 警报,可以精细到每 10 秒评估一次。 想象一下可用内存较少时发出警报。这通常是一种瞬时的情况,如果取样不够频繁,将很难捕获到。使用高精度指标,您可以在数秒内查看、检测 (通过警报) […]

Read More