AWS DevOps 代理程式
運用能夠解決並主動預防事件的自主 AI 代理程式,推動卓越營運
為何選擇 AWS DevOps 代理程式?
AWS DevOps 代理程式是您隨時待命的營運夥伴,可協助解決並主動預防事件、最佳化應用程式的可靠性與效能,並在 AWS、多雲與內部部署環境中處理隨需 SRE 任務。它會像經驗豐富的 DevOps 工程師一樣調查事件並找出營運改善機會:透過學習您的應用程式及其相互關係、搭配您的可觀測性工具、執行手冊、程式碼儲存庫和 CI/CD 管道運作,並在所有環境之間關聯遙測、程式碼和部署資料。提出問題、獲取即時關聯式答案,並建立可儲存並與團隊共用的自訂圖表和報告。
優勢
AWS DevOps 代理程式是您隨時待命的自發值班工程師。當警示出現的瞬間,不論是在凌晨 2 點還是在尖峰時段,它就會開始調查,迅速將您的應用程式恢復至最佳效能。AWS DevOps 代理程式會自發地全天候事件進行分類,並提供根本原因分析與解決行動。它利用對您應用程式資源及其關係的理解,快速掌握相依性與互動情況。AWS DevOps 代理程式會自動透過您偏好的通訊管道 (如 Slack、ServiceNow 和 PagerDuty),傳遞觀察結果、調查結果與緩解步驟,簡化事件回應流程。
AWS DevOps 代理程式會分析歷史事件模式,提供可付諸行動的建議,以強化四大關鍵領域:可觀測性、基礎結構最佳化、管道部署強化,以及應用程式韌性。建議包括代理程式準備好的規範,可將實作交給您的編碼代理程式或同事,以更新應用程式或基礎架構程式碼。這可以推動持續改進,而無需管理待辦事項。
AWS DevOps 代理程式能透過安全整合您的工作流程與可觀測性工具、執行手冊、程式碼儲存庫和 CI/CD 管道,讓您存取營運資料中尚未發掘的洞察。AWS DevOps 代理程式提供與可觀測性工具的內建整合,例如 Amazon CloudWatch、Dynatrace、Datadog、Grafana、New Relic 和 Splunk,以及程式碼儲存庫與 CI/CD 管道 (例如 Azure DevOps、GitHub 與 GitLab)。您可以透過安全地連接至自己的 MCP 伺服器,擴充 AWS DevOps 代理程式的功能,使其超越內建整合,實現與其他工具 (如組織的自訂工具、專用平台或專有工單系統) 的整合。
AWS DevOps 代理程式利用其對您環境的深入了解,使您能夠更深入掌握應用程式環境,除了提出問題之外,還能建立、儲存和共用自訂圖表和報告。透過自然語言介面來查詢資源健康狀態、調查事件模式、追蹤部署和探索預防建議。建立、儲存和共用自訂圖表和報告,協助您追蹤營運指標,並與團隊溝通見解。
客戶
United Airlines
「United Airlines 每天運送超過 500,000 萬名乘客。我們在混合雲端環境中擁有約 38,000 個 Dynatrace OneAgents 監控、500 多個 AWS 帳戶、20,000 個 AWS Lambda 函數、Amazon ECS 微服務以及許多其他服務。在這樣的規模下,我們過去需要在不同領域中使用多種工具來執行相同功能,這在故障排除期間造成了視野缺口與黑箱問題。有了 Dynatrace 的 AWS DevOps 代理程式,情況徹底改觀。Dynatrace 可快速準確地偵測問題、識別負責的應用程式層,然後代理程式會進一步調查並提供精確的步驟來解決問題 — 所有這些資訊都直接匯入 Dynatrace 中。我們不再需要在凌晨 3 點發起事故電話會議、在不同工具之間來回切換,而是已經準備好答案 — 透過單一管理平台即可掌握全貌。」
United Airlines 可靠性與可觀測性首席工程師 Jason Eckhart
T-Mobile
「當 AWS 推出 DevOps 代理程式時,T-Mobile 從第一天就參與其中。作為設計合作夥伴,我們看到 AWS DevOps 代理程式如何在生產環境中顯著改善根本原因分析。我們的真實回饋直接影響了產品的發展。
「我們的基礎架構橫跨多個雲端與內部部署環境,應用程式日誌則集中於我們內部部署的 Splunk 中。AWS DevOps 代理程式能與 Splunk 無縫整合,並分析跨越這些不同環境的日誌,在我們持續試行這項解決方案的過程中帶來了顯著的影響。」
T-Mobile 技術營運副總裁 Aravind Manchireddy
西部州長大學
西部州長大學 (WGU) 是一所領先的線上大學,為超過 191,000 名學生提供服務,是首批將 Amazon DevOps 代理程式部署到生產中的組織之一,甚至早於 re:Invent 上的預覽版發布。作為大規模 Dynatrace 使用者,WGU 利用 DevOps 代理程式的原生 Dynatrace 整合,使 Dynatrace Intelligence 能夠自動將問題記錄路由至代理程式進行調查,並將豐富的調查結果直接返回到 Dynatrace 中。
在最近的生產調查期間,WGU 的 SRE 團隊使用 DevOps 代理程式來分析服務中斷情況,預估兩小時的總體解決時間縮短為僅 28 分鐘,MTTR 提高了 77%。代理程式迅速找出 Lambda 函數組態中的根本原因,並顯示先前僅存在於未發現的內部文件中的關鍵操作知識。
「它能夠提供關鍵證據,明確指出是 Lambda 導致了問題。調查具有幾乎完美的指標,與我們在前端看到的相符。」 他補充道:「昨天是一場巨大的勝利,如果我們能持續加快問題發現的速度,那對我們組織來說將會是一場難以言喻的勝利。」 隨著計劃利用 DevOps 代理程式技能功能,WGU 正在進一步縮短調查時間。
西部州長大學技術運營總監 Angel Marchena
Zenchef
Zenchef 是一個餐廳技術平台,透過一套免佣金系統,幫助餐廳管理預訂、桌位營運、數字菜單、付款和顧客行銷。在一個精簡的 DevOps 團隊負責管理多個業務單位的生產環境時,他們迎來了一場真正的考驗:在公司黑客松期間,一個影響下游合作夥伴的 API 整合問題浮現,當時工程師們正全心投入活動中,而監控系統卻沒有顯示任何重大異常,無法指引他們正確的方向。
團隊並沒有讓工程師從黑客松中抽離,而是直接把問題交由 DevOps Agent 來處理。它有條不紊地解決問題:排除驗證是主要因素,將調查重點轉移到 ECS 部署,最終追蹤程式碼回歸的根本原因,即新版本無法處理資料庫中未識別的 enum 值。完整的調查在 20-30 分鐘內完成,與手動調查需要的 1-2 小時相比,大約減少了 75%,直接與負責的工程師分享調查結果。
「在黑客松期間,我們幾乎沒有可用的頻寬進行調查,而且我們也不需要它。我們一直在努力超前部署,而這種主動式的調查,在以往是很難做到的。DevOps 代理程式提供了解平台行為的全新方式。」
Zenchef 平台工程經理 Theo Massard
使用案例
事件回應與解決
AWS DevOps 代理程式會自發地對事件進行分類,並引導團隊快速解決問題。 AWS DevOps 代理程式會與可觀測性工具、程式碼儲存庫與 CI/CD 管道整合,以關聯並分析遙測資料、程式碼與部署資料,並分享其假設、觀察結果與調查結果。透過系統性的調查,AWS DevOps 代理程式能識別整個環境中,由系統變更、輸入異常、資源限制、元件失效與相依性問題所造成的根本原因。
自動化事件協調
您可以使用互動式聊天發起並引導調查。AWS DevOps 代理程式可作為您營運團隊的一員,直接在您的協作工具 (如 ServiceNow 和 Slack) 中工作,以分享調查結果並協調回應。在需要時,您可以直接從調查中建立 AWS Support 案件,使 AWS Support 專家能立即掌握情況,從而更快地解決問題。
預防未來營運事件
AWS DevOps 代理程式會分析歷史事件模式,提供可付諸行動的建議,以強化四大關鍵領域:可觀測性、基礎結構最佳化、管道部署強化,以及應用程式韌性。
加速隨需 SRE 任務處理
無需在主控台之間導航即可獲得營運問題的即時關聯式答案。透過自然對話來查詢資源健康狀態、調查事件模式、追蹤部署和探索建議。除了問答之外,還可以建立、儲存和共用自訂圖表和報告,例如每日營運狀況摘要或 4xx 錯誤趨勢。會保留對話記錄,因此您可以基於先前的查詢持續追問,而不會遺失上下文。
找到今天所需的資訊了嗎?
讓我們知道,以便我們改善頁面內容的品質