全天候待命、自主事件回應
全部開啟AWS DevOps 代理程式與 ServiceNow 等工單及警示系統整合,可自動從事件工單啟動調查,在既有工作流程中加速事件回應,以縮短平均復原時間 (MTTR)。
您也可以使用互動式聊天啟動並引導調查。AWS DevOps 代理程式如同營運團隊的一員,直接在 ServiceNow 和 Slack 等協作工具中運作,以分享調查結果並協調回應。在需要時,您可以直接從調查中建立 AWS Support 案件,使 AWS Support 專家能立即掌握情況,從而更快地解決問題。
AWS DevOps 代理程式與可觀測性工具、程式碼儲存庫和 CI/CD 管線整合,以關聯和分析遙測、程式碼和部署資料,並分享其探索的假設、觀察和根本原因調查結果。透過系統性的調查,AWS DevOps 代理程式能識別整個環境中,由系統變更、輸入異常、資源限制、元件失效與相依性問題所造成的根本原因。
AWS DevOps 代理程式識別出根本原因後,即會提供詳細的緩解計畫,包含解決事件、驗證成功以及在需要時還原變更的動作。AWS DevOps 代理程式亦提供可供代理程式執行的指令,這些指令可由另一個前沿代理程式實作,例如可由 Kiro 自主代理程式實作的程式碼改善。
透過系統性調查源自整個堆疊中系統變更、輸入異常、資源限制、元件故障及相依性問題的警示,AWS DevOps 代理程式以針對性緩解步驟引導 DevOps 團隊,將平均復原時間 (MTTR) 從數小時縮短至數分鐘。 例如:
- 系統變更:若事件是因近期程式碼變更導致 Amazon DynamoDB 遭限流 (該變更造成使用效率低落而產生高延遲),AWS DevOps 代理程式可能建議復原變更作為立即緩解措施。
- 系統變更:若事件是因程式碼部署後篩選政策不符導致 Amazon SNS 訂閱錯誤,AWS DevOps 代理程式可能建議復原改變了訊息結構的程式碼變更,作為恢復訊息流的立即緩解措施。
- 輸入異常:若事件是因高流量超出限制導致 AWS Lambda 通知遭限流,AWS DevOps 代理程式可能建議提高並行限制作為立即緩解措施。
- 輸入異常:若事件是因訊息大小問題導致 Amazon SNS 訊息發布失敗,AWS DevOps 代理程式可能建議在 Amazon SNS 訊息發布中新增驗證作為立即緩解措施。
- 資源限制:若事件是因超出速率限制導致 API 遭限流,AWS DevOps 代理程式可能建議提高速率/爆量限制作為立即緩解措施。
- 資源限制: 若事件是因超出寫入容量導致 Amazon DynamoDB 遭限流,AWS DevOps 代理程式可能建議增加寫入容量作為立即緩解措施。
- 元件故障: 若事件是因效能降低導致冷啟動延遲,AWS DevOps 代理程式可能建議增加佈建並行作為立即緩解措施。
主動預防未來事件
全部開啟AWS DevOps 代理程式會分析歷史事件模式,提供可付諸行動的建議,以強化四大關鍵領域:可觀測性、基礎結構最佳化、管道部署強化,以及應用程式韌性。例如,在基礎設施最佳化領域,AWS DevOps 代理程式建議針對 EKS 叢集使用 Kubernetes Horizontal Pod Autoscaler (HPA) 來處理意外的流量高峰。
AWS DevOps 代理程式識別可觀測性涵蓋範圍的缺口及微調警示的機會,縮短平均偵測時間 (MTTD),讓您能在問題擴大前識別問題。例如,在識別出近期故障的事件偵測耗時過長後,AWS DevOps 代理程式可能建議在更靠近錯誤來源處實作監控與異常偵測以縮短偵測時間,防止長時間中斷。
利用學習迴圈,AWS DevOps 代理程式根據團隊對建議的回饋,持續微調其建議、與營運優先順序保持一致,並提供越來越切合組織需求的建議。
AWS DevOps 代理程式分析歷史事件模式,提供針對性建議以預防未來中斷並強化系統韌性。透過評估真實事件,它針對四個關鍵領域提供具體、可採取行動的改善措施,以減少類似問題的發生頻率與影響:可觀測性、基礎設施最佳化、部署管道增強及應用程式韌性。
- 可觀測性改善:AWS DevOps 代理程式可能建議將關鍵身分驗證系統的警示閾值,從 20 分鐘內 15 次失敗調整為 5 分鐘內 3 次失敗,以縮短偵測時間,防止長時間整合中斷。
- 可觀測性改善:AWS DevOps 代理程式可能建議實作針對性的 CloudWatch 指標篩選條件,以追蹤 IAM 角色變更的異常「拒絕存取」模式,相較於先前的警示能實現更快的偵測。
- 基礎設施改善:在分析 Amazon DynamoDB 資料表結構描述不符合服務的主要存取模式,導致效率低落的全資料表掃描後,AWS DevOps 代理程式建議建立全域次要索引 (GSI),並以頻繁查詢的屬性作為分割區索引鍵。這將把操作從掃描轉變為查詢,將延遲從 2,500-3,500 毫秒降低至 100 毫秒以下,並防止限流。
- 基礎設施改善:AWS DevOps 代理程式的分析顯示應用程式資源充足,但受限於單一 Pod 瓶頸,導致流量高峰期間所有請求皆排隊等候單一執行個體。AWS DevOps 代理程式可能建議在 Kubernetes 叢集中新增 Horizontal Pod Autoscaler,這將根據需求自動水平擴展服務,有效將負載分散至多個 Pod。
- 部署管道:在分析失敗的 Amazon ECS 部署後,AWS DevOps 代理程式可能建議啟用自動復原並使用 Amazon EventBridge 監控部署狀態。這些變更將快速偵測並解決任務運作狀態檢查失敗,防止客戶交易中斷。
- 部署管道:在分析部署失敗後,AWS DevOps 代理程式可能建議針對 Amazon ECS 任務定義,強制執行 Amazon Managed Service for Prometheus 連線能力的部署前驗證。此建議可透過在部署過程中偵測連線問題來減少失敗的部署。
從 DevOps 工具獲得更多價值
全部開啟隨著 AWS DevOps 代理程式學習您的環境,它會識別應用程式資源 (如容器、網路元件、日誌群組、警示及 CI/CD 部署),並對應其連接方式以建立應用程式資源地圖。它將此資源拓撲與您的遙測、程式碼及部署資料結合,精確找出問題的根本原因。
AWS DevOps 代理程式提供與許多可觀測性工具 (Amazon CloudWatch、Dynatrace、Datadog、New Relic 和 Splunk)、程式碼儲存庫及 CI/CD 管道 (GitHub Actions 和儲存庫、GitLab Workflows 和儲存庫) 的內建整合。
您可以透過連接至自己的 MCP 伺服器,擴充 AWS DevOps 代理程式的功能,使其超越內建整合,實現與其他工具 (如組織的自訂工具、專用平台或專有工單系統) 的整合。例如,透過連接至 MCP 伺服器,您可以整合開放原始碼可觀測性訊號,如 Grafana 警示、Prometheus 指標及 Confluence 中的執行手冊。
找到今天所需的資訊了嗎?
讓我們知道,以便我們改善頁面內容的品質