David Yanacek
作者:David
Amazon 的生产服务监控方法
本课程涵盖 Amaozn 监控的全方位内容,从团队如何从宏观层面评测系统运行状况,到如何深入探究以了解单个请求的详细信息。此外,了解 Amazon 对百分位数、指标维度、控制面板、日志分析和分布式跟踪的看法。
大规模卓越运营
在本环节中,了解亚马逊的运维实践。了解团队所养成的习惯(例如进行回顾复盘、分享知识以及定期审查运维指标)如何促使团队进行创新,从而构建更好的工具并实现架构上的转变。
大规模架构和运营韧性无服务器系统
在本视频中,我们将介绍 AWS 为构建可靠且有韧性的服务所做的工作,包括避免模式和过载、执行限定工作、多层级节流、保障并发性、发送幂等请求、在队列中应用背压和公平性,以及执行随机分片。
实施运行状况检查
自动检测和缓解服务器故障,而不会因实例集范围内的误报而产生意外后果。
检测分布式系统以获得运营可见性
获得生产系统的运营可见性,并使用软件工具对故障进行故障排除。
通过卸除负载来避免过载
遇到过载情况时维持可预测一致性的策略。
使用依赖隔离来遏制并发过载
将故障依赖所造成的影响控制在只波及应用程序中的相关功能。
多租户系统的公平性
提高多租户系统的公平性,以提供可预测的性能和可用性。
避免无法克服的队列积压
优先快速处理队列积压中的重要工作负载,从一开始避免积压。