跳至主要內容

Amazon 建置者資料中心

資深首席工程師 David Yanacek

David Yanacek 是一名資深首席工程師,在 AWS 的 Amazon Monitoring & Observability 組織從事 CloudWatch 等服務的工作。David 自 2006 年以來一直是 Amazon 的一名軟體開發人員,之前從事 Amazon DynamoDB、AWS Lambda 和 AWS IoT 方面的工作。此外,他還從事內部網路服務架構和機群營運自動化系統方面的工作。David 工作中最喜歡的活動之一是,執行日誌分析並篩選操作指標,以尋找讓系統隨時間推移而執行越來越平穩的方法。

推特 Linkedin GitHub

A portrait photo of a smiling person wearing glasses and a collared shirt, outdoors with a blurred background.

作者﹔David

亞馬遜的生產服務監控方法
從團隊如何在高層級評估系統運作狀態,到如何放大顯示以了解單一請求詳細資訊,本專題講座將介紹 Amazon 的全方位監控服務。您還可了解 Amazon 百分位數、指標維度、儀表板、記錄分析與分散式追蹤的運用。

亞馬遜的卓越營運
在本會議中,了解 Amazon 的營運做法。團隊採用的習慣,例如處理回顧、分享知識和定期審查營運指標,如何使團隊創新,以建立更好的工具並進行架構改變。

大規模建構和操作彈性無伺服器系統
本影片將介紹 AWS 如何建置可靠、具備恢復能力的服務,包括避免模式與過載、執行受約束工作、在多層限流、並行防護機制、傳送等冪請求、在佇列中套用反壓與公平性,以及執行隨機分片。

執行健康檢查
自動偵測及緩解伺服器故障問題,不會因系統誤報機群範圍而產生意外後果。

測量分散式系統以實現營運可見性
掌握生產系統的運作情況,並使用軟體工具排除故障事件。

使用卸載以避免過載
面對系統過載時維持可預測性及穩定效能的策略。

使用依賴隔離來控制並行過載
包含由失敗相依性造成的影響,僅影響應用程式中相關功能。 

多租戶系統的公平
在多租戶系統中建立公平性,以提供可預測的效能和可用性。

避免無法克服的佇列延遲
快速優先處理佇列待處理項目中的重要工作負載,並以防止出現待處理項目為首要任務。