跳至主要内容

Amazon Builders' Library

高级首席工程师 David Yanacek

David Yanacek 是 AWS Amazon 监控和可观测性组织中负责 CloudWatch 等服务的高级首席工程师。David 自 2006 年以来一直是 Amazon 的软件开发人员,之前曾负责 Amazon DynamoDB、AWS Lambda 和 AWS IoT。他还负责内部 Web 服务框架和实例集运营自动化系统。在工作中,David 最喜欢做的就是执行日志分析并筛选操作指标,进而找到逐步提升系统运行流畅性的方法。

推特领英微博

A portrait photo of a smiling person wearing glasses and a collared shirt, outdoors with a blurred background.

作者:David

亚马逊的生产服务监控方法
本课程涵盖 Amaozn 监控的全方位内容,从团队如何从宏观层面评测系统运行状况,到如何深入探究以了解单个请求的详细信息。此外,了解 Amazon 对百分位数、指标维度、控制面板、日志分析和分布式跟踪的看法。

亚马逊的卓越运营
在本节中,了解亚马逊的运营实践。团队所采用的习惯,例如处理回顾、共享知识和定期审查运营指标,如何促使团队进行创新,以构建更好的工具和进行架构转变。

大规模架构和运营弹性无服务器系统
在本视频中,我们将介绍 AWS 为构建可靠且有韧性的服务所做的工作,包括避免模式和过载、执行限定工作、多层级节流、保障并发性、发送幂等请求、在队列中应用背压和公平性,以及执行随机分片。

实施健康检查
自动检测和缓解服务器故障,而不会因队列范围内的误报而产生意外后果。

对分布式系统进行仪表以提高运营可见性
获得生产系统的运营可见性,并使用软件工具对故障进行故障排除。

使用减负来避免过载
遇到过载情况时维持可预测一致性的策略。

使用依赖隔离来控制并发过载
包含因依赖关系失败而造成的影响,仅影响应用程序中的相关功能。 

多租户系统的公平性
建立多租户系统的公平性,以提供可预测的性能和可用性。

避免不可逾越的队列积压
优先快速处理队列积压中的重要工作负载,从一开始避免积压。