可觀察性

取得洞察並提高應用程式、使用者和基礎設施的效能

什麼是可觀察性?

「我的系統正常還是停機?」「我的最終使用者體驗的速度是快是慢?」「應該建立哪些 KPI 和 SLA?我們如何得知是否遵循?」 您以雲端速度及規模營運時,無法承擔盲目行事的後果:您必須能夠回答各式各樣有關營運和業務的問題,就像上述問題一樣。您必須在問題浮現時迅速掌握 (理想狀況是在問題影響客戶體驗之前)、迅速回應,以及儘速解決。為了獲得此洞察,您需要可觀察系統。

監控與可觀察性

「可觀察性」是指您對於系統中發生的事情有多少了解,通常是透過工具來收集指標、日誌或追蹤。在雲端,由於系統超乎想像的複雜性,所以不易達成可觀察性。無論是在資料中心還是在雲端中,為了實現卓越營運和業務目標,您都需要了解系統的執行情況。可觀察性解決方案可讓您收集和分析來自應用程式和基礎設施的資料,以便您了解它們的內部狀態,並就應用程式可用性和效能問題獲得提醒,疑難排解並解決問題,從而改善最終使用者體驗。 

可觀察性和監控有什麼區別?

雖然術語「監控」有時其定義與可觀察性不同,但監控是一種使系統可觀察的活動,與追蹤和記錄等活動配合執行。您經常會看到監控、追蹤和記錄描述為「可觀察性的三大支柱」。 但是,還有其他工具可協助您獲得可觀察性,例如 Profiler 和 AI/維運,這將在下方討論。

可觀察性對我有什麼協助?

可觀察性能讓您偵測和調查問題。

偵測

及時偵測問題 (最好在它影響最終使用者之前) 是可觀察性的第一步。偵測應該是主動的和多方面的,包括在突破效能閾值時發出警示、綜合測試和異常偵測。一個常用的效能指標是平均偵測時間 (MTTD)。您可以使用許多活動和工具提高 MTTD:


監控

監控工具記錄一段時間內的效能統計資料,以便識別使用模式。監控代理按設定的時間間隔記錄選定的指標,並以時間序列格式存放產生的資料。

應用程式效能監控

應用程式效能監控 (APM) 可讓您監控端對端客戶體驗,從瀏覽器和行動裝置到應用程式堆疊的各個層。APM 從前端監控開始 – 從瀏覽器或行動裝置測量和監控客戶的體驗。APM 的核心是應用程式探索、追蹤和診斷,它能夠識別應用程式的哪個部分導致效能問題並快速查明原因。

提醒

出現問題時,您需要及時的提醒。但是,過於敏感的偵測會導致警示疲勞,因此提醒管理也很關鍵。

AI/維運和異常偵測

新一代工具現在將人工智慧和機器學習的力量用於可觀察性,使用機器學習模型來識別異常的應用程式行為並在它們導致潛在的中斷或服務中斷之前發現關鍵問題。

基礎設施監控

基礎設施監控可讓您關聯基礎設施堆疊中的指標和日誌,以了解和解決效能問題的根本原因。

數位體驗監控

數位體驗監控 (DEM) 透過從最終使用者的瀏覽器、行動應用程式或語音互動中收集活動,提供對最終使用者與系統互動體驗的洞察。合成交易涉及建立指令碼以在與系統互動時模擬最終使用者的行為,以便即使在沒有實際負載的情況下也可以對其進行監控和測試。實際使用者監控 (RUM) 會監控網站或 API 接收來自世界各地不同連接點請求的可用性,同時結合自動化 A/B 測試。

分析

分析工具定期採集測量範例。例如,中央處理單元 (CPU) 通常透過獲取 CPU 上代碼路徑的定時間隔範例來分析。

遙測

遙測是系統的檢測 (通常透過監控代理),以便其可以收集有關這些系統如何執行的資料。一旦遙測就位,系統就會開始產生可以監控的資料。但是,公司內的不同團隊可能使用不同的工具,這導致必須包含在公司程式碼庫中的監控代理激增,或者如果您決定使用不同或額外的工具,則必須重新檢測。OpenTelemetry 專案使得僅檢測一次應用程式並將相關指標和追蹤傳送至多個監控解決方案成為可能。

調查

調查是營運事件中最耗時的階段。發生錯誤時,可能很難理解應該最優先修正什麼。同時使用多個可觀察性來源可以協助您快速調查以了解根本原因,但要有效地做到這一點,您需要跨指標、日誌和追蹤關聯資料。 


追蹤

追蹤記錄系統事件,例如來自用戶端的 HTTP 請求。在分散式追蹤中,擷取的有關事件的詳細資訊包括跨多個服務/應用程式的請求路徑,以及有關請求的指標,例如每個步驟的延遲。

視覺化工具

可觀察性可產出巨量資料,尤其是在雲端規模時,因此人工剖析有其困難。視覺化工具有助於透過建立可觀察性資料與直覺式圖形顯示間的關聯性,快速理解資料。

我何時需要使用可觀察性?

了解應用程式運作狀態和效能,改善客戶體驗

可觀察性的主要目標是了解在您的系統各處發生了什麼事,讓您確保最終使用者獲得最佳體驗。您想要迅速偵測問題、有效調查,以及儘速補救,將停機時間以及對客戶的影響降到最少;一個常用指標是平均復原時間 (MTTR)。

提高開發人員生產力

傳統式除錯 (透過分析日誌或檢測程式碼中斷點) 是繁瑣、重複性高又耗時的工作,而且正式作業應用程式或使用微型服務或無伺服器架構建立的應用程式無法妥善擴充規模。為了分析跨分散式應用程式的效能,開發人員需要相關指標和追蹤,以識別任何來源的使用者影響,並儘速找出受損或所費不貲的程式碼路徑。他們想要在套件中新增可觀察性工具時,必須在不重新檢測程式碼的狀況下完成上述動作。合適的可觀察性工具套件可以協助開發人員更好更快地進行編碼和測試。

提高營運有效性和效率

可觀察性可以協助您發現雲端機群的效能改進,從而降低成本。例如,在數十萬或數百萬個執行個體中,一個應用程式 CPU 使用量的微小效能改進最終可以節省數百萬美元。同樣,透過使用可觀察性來了解和預測您未來的容量需求,您可以利用預訂和 Spot 定價節省大量成本。

AWS 提供哪些可觀察性解決方案?

AWS 服務

我們的 AWS 原生可觀察性解決方案是從頭開始開發的,用於觀察其他 AWS 服務、以雲端規模操作並提供企業級安全。

CloudWatch 以日誌、指標和事件的形式收集監控和操作資料,為您提供資料和可行的洞察以監控應用程式、回應整個系統的效能變化、最佳化資源使用情況。

跨多個應用程式和系統執行分散式追蹤,以協助發現系統中的延遲並針對它進行改進。

使用火焰圖找出應用程式中 CPU 密集程度最高的程式碼路徑,並最佳化您的程式碼以提高效能,降低基礎設施成本。 

自動從您的 AWS 應用程式中擷取操作資料,並套用由 Amazon.com 和 AWS 多年卓越營運所訓練出的機器學習模型,以識別異常的應用程式行為並在它們導致中斷或服務中斷之前發現關鍵問題。

開放原始碼

我們提供的服務以受歡迎的開放程式碼可觀察性軟體為基礎,並與之完全相容。您可以繼續使用您已經投資的熟悉工具,同時避免擴展和安全性方面的無差別繁重工作。

安全、生產就緒型、AWS 支援的 OpenTelemetry 專案發行版本。使用該工具,您只需檢測應用程式一次即可將相關的指標和追蹤傳送至多個 AWS 和合作夥伴監控解決方案。

基於 Prometheus 並與之相容的受管監控服務,Prometheus 是針對容器環境最佳化的熱門開放原始碼監控和提醒解決方案。使用 Prometheus 查詢語言 (PromQL) 來監控容器化工作負載的效能。

基於 Grafana 的全受管服務,Grafana 是熱門開放原始碼分析平台。無論指標存放在何處,都可以查詢、視覺化、提醒和理解指標。建立、探索和共享可觀察性儀表板。

Amazon OpenSearch Service 可讓您輕鬆執行互動式日誌分析、即時應用程式監控、網站搜尋以及其他動作。OpenSearch 是一款源自 Elasticsearch 的開放原始碼、分散式搜尋和分析套件。Amazon OpenSearch Service 提供最新版本的 OpenSearch,支援 19 個版本的 Elasticsearch (1.5 到 7.10 版本),以及由 OpenSearch 儀表板和 Kibana (1.5 到 7.10 版本) 提供支援的視覺化功能。

客戶案例

Mapbox

Mapbox

Mapbox 是提供自訂設計地圖的開放原始碼地圖繪製平台,每個月觸及超過 3 億人。Mapbox 使用 Amazon CloudWatch 吸收多方資料來源,包括原生 AWS 數據、自訂數據和日誌,以及監測和視覺化關鍵工作負載和資源最佳化。

「我們希望將所有監控、記錄、數據和改變整併至單一工具。CloudWatch 協助我們舒解設置、配置和學習第三方系統的營運負擔。我們的團隊廣泛使用 CloudWatch 來監測多項高設定檔工作負載的錯誤率和狀態代碼。我們也使用 CloudWatch 將 Auto Scaling 動作自動化,因此得以最佳化提供 Amazon ECS 叢集技術的 Amazon EC2 執行個體類型成本。CloudWatch 事件可讓我們提供使用率和定價資訊給團隊,讓他們能夠針對合規和安全性使用案例,使用雲端稽核帳戶安全性、觸發 AWS Lambda 動作並安排資源。CloudWatch 能實現下一代自動化,並擴展每個人的能力。」

Mapbox 平台工程經理 Emily McAfee

Pushpay

Pushpay

Pushpay 的目標是強化社群、連結和歸屬感,把所有人匯集在一起。我們建立了世界級的贈與及行動應用程式發行解決方案,可協助組織發展社群。

「我們目前的日誌分析解決方案需要設置及維護負擔、保留要求不同、成本過高,因此工程團隊無法在開發及測試環境兩處存取和查詢日誌。使用 CloudWatch Logs Insights,我們現在可以在 CloudWatch Logs 中查詢日誌,可降低營運複雜性。依查詢次數付費機制,給予我們依照自身步調擴充的靈活性,我們的工程師可以開始消耗和查詢日誌,不必像目前的解決方案一樣苦苦等待設置、整合及擷取完成。檢視數據和日誌可加速故障排除,也使我們受惠。Logs Insights 是有效且價位合理的解決方案,我們的工程師可從單一 AWS 主控台監測應用程式並深入了解日誌。」

Pushpay 站台可靠性工程主任 Peter Goodman

SendGrid

SendGrid

SendGrid 是雲端電子郵件供應商,每個月為超過 69,000 名付費客戶傳送超過 400 億封郵件。SendGrid 移轉至 AWS 的早期即採用 Amazon CloudWatch,目的是獲取系統可見性、深入的營運見解和資源最佳化。

「CloudWatch 可讓我們收集 Amazon EC2、Amazon Kinesis、Amazon DynamoDB 和 Amazon API Gateway 等 AWS 服務的數據,以及 AWS Lambda 函數的日誌。我們非常欣賞不必自行管理堆疊或第三方 SaaS 廠商的原生整合方法。有助我們在極短時間內開始警示、自動調整規模及進行容量規劃。能夠快速、簡單地處理我們的主要使用案例,使 CloudWatch 成為首選解決方案。」

SendGrid 二級架構師 Joshua Barratt

了解可觀察性實作

參加身臨其境的互動式一次可觀察性研討會,並使用 Amazon CloudWatchAWS X-Ray 進行實作。在此研討會上,您將部署一個複雜的微型服務應用程式,並在現代環境中設定監控和可觀察性。結束時,您將清楚地了解記錄、指標、容器和無伺服器監控以及追蹤技術。

開始研討會 
最新消息
日期 (最新到最舊)
  • 日期 (最新到最舊)
1
找不到結果。
部落格
日期
  • 日期
1
找不到符合該條件的部落格。

探索用於在 AWS 中進行管理和管控的其他使用案例

Page-Illo_AWS-Management-Governance_Open and Custom Resource Provisioning
佈建與協調 »

建立、佈建和共用資源

Page-Illo_AWS-Management-Governance_Automated Configuration Compliance and Auditing
組態、合規與稽核 »

稽核與修復資源組態

Page-Illo_AWS-Management-Governance_Centralized and Automated Operations Management
集中式營運管理 »

管理雲端營運

Page-Illo_AWS-Management-Governance_Governance at Scale
企業管控與控制 »

建立集中受管、安全、多帳戶的 AWS 環境