David Yanacek
作者:David
亚马逊的生产服务监控方法
本课程涵盖 Amaozn 监控的全方位内容,从团队如何从宏观层面评测系统运行状况,到如何深入探究以了解单个请求的详细信息。此外,了解 Amazon 对百分位数、指标维度、控制面板、日志分析和分布式跟踪的看法。
亚马逊的卓越运营
在本节中,了解亚马逊的运营实践。团队所采用的习惯,例如处理回顾、共享知识和定期审查运营指标,如何促使团队进行创新,以构建更好的工具和进行架构转变。
大规模架构和运营弹性无服务器系统
在本视频中,我们将介绍 AWS 为构建可靠且有韧性的服务所做的工作,包括避免模式和过载、执行限定工作、多层级节流、保障并发性、发送幂等请求、在队列中应用背压和公平性,以及执行随机分片。
实施健康检查
自动检测和缓解服务器故障,而不会因队列范围内的误报而产生意外后果。
对分布式系统进行仪表以提高运营可见性
获得生产系统的运营可见性,并使用软件工具对故障进行故障排除。
使用减负来避免过载
遇到过载情况时维持可预测一致性的策略。
使用依赖隔离来控制并发过载
包含因依赖关系失败而造成的影响,仅影响应用程序中的相关功能。
多租户系统的公平性
建立多租户系统的公平性,以提供可预测的性能和可用性。
避免不可逾越的队列积压
优先快速处理队列积压中的重要工作负载,从一开始避免积压。