Beobachtbarkeit

Gewinnen Sie Einblicke und verbessern Sie die Leistung Ihrer Anwendungen, Benutzer und Infrastruktur

Was ist Beobachtbarkeit?

"Ist mein System hoch oder runter?" "Ist es schnell oder langsam, wie es von meinen Endbenutzern wahrgenommen wird?" "Welche KPIs und SLAs sollten wir einrichten und wie wissen wir, ob sie erfüllt werden?" Wenn Sie mit der Geschwindigkeit und Skalierung der Cloud arbeiten, können Sie es sich nicht leisten, blind zu fliegen: Sie müssen in der Lage sein, eine Vielzahl von operativen und geschäftlichen Fragen wie diese zu beantworten.wissen wir, ob sie erfüllt werden?" Sie müssen in der Lage sein, Probleme zu erkennen, sobald sie auftreten (idealerweise bevor sie das Kundenerlebnis stören). Reagieren Sie schnell und lösen Sie sie so schnell wie möglich. Um diese Einsicht zu erlangen, braucht man beobachtbare Systeme.

Überwachung und Beobachtbarkeit

"Beobachtbarkeit" beschreibt, wie gut man verstehen kann, was in einem System vor sich geht, oft durch Instrumentierung, um Metriken, Protokolle oder Traces zu sammeln. In der Cloud kann die Beobachtbarkeit aufgrund der schieren Komplexität des Systems schwer zu erreichen sein. Ob in Rechenzentren oder in der Cloud - um operative Exzellenz zu erreichen und Unternehmensziele zu erfüllen, müssen Sie wissen, wie Ihre Systeme funktionieren. Mit Observability-Lösungen können Sie Daten von Anwendungen und Infrastrukturen sammeln und analysieren, um deren interne Zustände zu verstehen und Probleme mit der Anwendungsverfügbarkeit und -leistung zu erkennen, zu beheben und zu beheben, um die Erfahrung der Endbenutzer zu verbessern. 

Was ist der Unterschied zwischen Beobachtbarkeit und Überwachung?

Obwohl der Begriff "Überwachung" manchmal anders definiert wird als Beobachtbarkeit, ist die Überwachung eine Aktivität, die ein System beobachtbar macht, neben anderen Aktivitäten wie Tracing und Logging. Häufig werden Überwachung, Verfolgung und Protokollierung als "drei Säulen der Beobachtbarkeit" bezeichnet.” Es gibt jedoch auch andere Tools, die Ihnen dabei helfen, Beobachtbarkeit zu erreichen, wie z. B. Profiler und AI/Ops (siehe unten).

Was kann ich mit Hilfe der Beobachtbarkeit tun?

Die Beobachtbarkeit ermöglicht es Ihnen, Probleme zu erkennen und zu untersuchen.

Erkennung

Die rechtzeitige Erkennung eines Problems (idealerweise bevor es sich auf die Endnutzer auswirkt) ist der erste Schritt zur Beobachtbarkeit. Die Erkennung sollte proaktiv und vielschichtig sein, einschließlich Alarme bei Überschreitung von Leistungsschwellen, synthetische Tests und Erkennung von Anomalien. Eine gängige Leistungskennzahl ist die mittlere Zeit bis zur Entdeckung (MTTD). Sie können MTTD mit einer Reihe von Aktivitäten und Instrumenten verbessern:


Überwachung

Überwachungswerkzeuge zeichnen Leistungsstatistiken über einen längeren Zeitraum auf, so dass sich Nutzungsmuster erkennen lassen. Überwachungsagenten zeichnen ausgewählte Metriken in bestimmten Intervallen auf und speichern die daraus resultierenden Daten in einem Zeitserienformat.

Überwachung der Anwendungsleistung

Mit Application Performance Monitoring (APM) können Sie das gesamte Kundenerlebnis überwachen, von Browsern und mobilen Geräten bis hin zu den verschiedenen Schichten des Anwendungsstacks. APM beginnt mit dem Front-End-Monitoring - dem Messen und Überwachen der Kundenerfahrung über den Browser oder das mobile Gerät. Das Herzstück von APM, Application Discovery, Tracing und Diagnostics ist die Fähigkeit, den Teil einer Anwendung zu identifizieren, der Leistungsprobleme verursacht, und den Grund dafür schnell zu finden.

Warnungen

Wenn etwas schief geht, wollen Sie rechtzeitig gewarnt werden. Eine zu empfindliche Erkennung kann jedoch zu Alarmmüdigkeit führen, daher ist auch das Alarmmanagement entscheidend.

AI/Ops und Erkennung von Anomalien

Eine neue Generation von Tools nutzt jetzt die Möglichkeiten der künstlichen Intelligenz und des maschinellen Lernens, um die Beobachtbarkeit zu verbessern. Dabei werden Modelle des maschinellen Lernens eingesetzt, um anomales Anwendungsverhalten zu erkennen und kritische Probleme aufzudecken, bevor sie potenzielle Ausfälle oder Serviceunterbrechungen verursachen.

Infrastrukturüberwachung

Mit der Infrastrukturüberwachung können Sie Metriken und Protokolle aus einem Infrastruktur-Stack korrelieren, um die Ursachen von Leistungsproblemen zu verstehen und zu beheben.

Überwachung digitaler Erfahrungen

Digital Experience Monitoring (DEM) bietet Einblicke in die Erfahrung des Endnutzers, der mit dem System interagiert, indem es Aktivitäten aus dem Browser, der mobilen App oder der Sprachinteraktion erfasst. Bei synthetischen Transaktionen werden Skripte erstellt, die das Verhalten des Endbenutzers bei der Interaktion mit einem System emulieren, so dass dieses überwacht und getestet werden kann, auch wenn es nicht unter echter Last steht. Real User Monitoring (RUM) kombiniert die Überwachung der Verfügbarkeit einer Website oder API für den Empfang von Anfragen von verschiedenen Standorten in der Welt mit automatisierten A/B-Tests.

Profilerstellung

Profiling-Tools nehmen in regelmäßigen Abständen eine Stichprobe von Messungen vor. So werden beispielsweise für Zentraleinheiten (CPUs) in der Regel Profile erstellt, indem in zeitlichen Abständen Stichproben der Codepfade auf der CPU genommen werden.

Telemetrie

Unter Telemetrie versteht man die Instrumentierung von Systemen (in der Regel über Überwachungsagenten), damit diese Daten über die Leistung dieser Systeme sammeln können. Sobald die Telemetrie eingerichtet ist, produziert ein System Daten, die überwacht werden können. Allerdings können verschiedene Teams innerhalb eines Unternehmens unterschiedliche Tools verwenden, was zu einem Wildwuchs an Überwachungsagenten geführt hat, die in die Codebasis eines Unternehmens aufgenommen werden müssen, oder Sie müssen neu instrumentieren, wenn Sie sich für die Verwendung anderer oder zusätzlicher Tools entscheiden. Das OpenTelemetry-Projekt macht es möglich, Anwendungen nur einmal zu instrumentieren und korrelierte Metriken und Traces an mehrere Überwachungslösungen zu senden.

Untersuchung

Die Untersuchung ist die zeitaufwändigste Phase eines operativen Ereignisses. Wenn etwas schief läuft, kann es schwierig sein, zu erkennen, was am wichtigsten zu beheben ist. Wenn Sie mehrere Beobachtungsquellen zusammen verwenden, können Sie die Ursache schnell ermitteln, aber um dies effektiv zu tun, müssen Sie Daten über Metriken, Protokolle und Traces korrelieren. 


Tracing

Tracing zeichnet Systemereignisse auf, wie z.B. eine HTTP-Anfrage von einem Client. Beim distributed Tracing werden Details über das Ereignis erfasst, darunter der Pfad der Anfrage über mehrere Dienste/Anwendungen hinweg sowie Metriken über die Anfrage, z. B. die Latenzzeit bei jedem Schritt.

Werkzeuge zur Visualisierung

Die Beobachtbarkeit, insbesondere im Cloud-Maßstab, kann riesige Datenmengen erzeugen, die für den Menschen schwer zu analysieren sind. Visualisierungstools helfen dabei, Daten schnell zu verstehen, indem sie Beobachtungsdaten in intuitiven grafischen Darstellungen korrelieren.

Wann verwende ich die Beobachtbarkeit?

Verstehen Sie den Zustand und die Leistung von Anwendungen, um die Kundenerfahrung zu verbessern

Das Hauptziel der Beobachtbarkeit ist es, zu wissen, was in Ihrem System vor sich geht - überall und jederzeit -, damit Sie die bestmögliche Erfahrung für Ihre Endbenutzer sicherstellen können. Sie wollen Probleme schnell erkennen, sie effizient untersuchen und so schnell wie möglich beheben, um Ausfallzeiten und andere Störungen für Ihre Kunden zu minimieren; eine gängige Kennzahl ist die mittlere Wiederherstellungszeit (MTTR).

Entwicklerproduktivität steigern

Herkömmliches Debugging - durch die Analyse von Protokollen oder das Einfügen von Haltepunkten in den Code - ist mühsam, repetitiv und zeitaufwändig und skaliert nicht gut für Produktionsanwendungen oder solche, die mit Microservices oder einer serverlosen Architektur erstellt wurden. Um die Leistung verteilter Anwendungen zu analysieren, benötigen Entwickler korrelierte Metriken und Traces, um Auswirkungen auf den Benutzer aus jeder Quelle zu erkennen und um fehlerhafte oder teure Codepfade so schnell wie möglich zu finden. Sie müssen all dies tun, ohne ihren Code jedes Mal neu instrumentieren zu müssen, wenn sie neue Beobachtungstools in ihr Paket aufnehmen wollen. Die richtige Suite von Beobachtungstools kann Entwicklern helfen, besser und schneller zu programmieren und zu testen.

Verbesserung der betrieblichen Effektivität und Effizienz

Beobachtbarkeit kann Ihnen helfen, Leistungsverbesserungen in Ihrer Cloud-Flotte zu finden, die Ihnen wiederum Kosteneinsparungen ermöglichen. Bei Tausenden oder Hunderttausenden von Instances kann sich zum Beispiel eine kleine prozentuale Leistungsverbesserung bei der CPU-Auslastung einer Anwendung zu Einsparungen in Millionenhöhe summieren. Indem Sie die Beobachtbarkeit nutzen, um Ihren künftigen Kapazitätsbedarf zu verstehen und vorherzusagen, können Sie auch die Kosteneinsparungen nutzen, die sich aus Reserve- und Spotpreisen ergeben.

Welche Lösungen zur Beobachtbarkeit bietet AWS?

AWS-Services

Unsere AWS-nativen Beobachtbarkeitslösungen wurden von Grund auf entwickelt, um andere AWS-Services zu beobachten, im Cloud-Maßstab zu arbeiten und Sicherheit auf Unternehmensebene zu bieten.

CloudWatch sammelt Überwachungs- und Betriebsdaten in Form von Protokollen, Metriken und Ereignissen und liefert Ihnen Daten und umsetzbare Erkenntnisse, um Ihre Anwendungen zu überwachen, auf systemweite Leistungsänderungen zu reagieren und die Ressourcennutzung zu optimieren.

Führen Sie eine verteilte Nachverfolgung über mehrere Anwendungen und Systeme hinweg durch, um Latenzzeiten in einem System aufzuspüren und diese gezielt zu verbessern.

Erkennen Sie die rechenintensivsten Codepfade in einer Anwendung mithilfe von Flammengraphiken und optimieren Sie Ihren Code, um die Leistung zu verbessern und die Infrastrukturkosten zu senken. 

Nimmt automatisch Betriebsdaten von Ihren AWS-Anwendungen auf und wendet Machine-Learning-Modelle an, die auf jahrelanger Erfahrung mit Amazon.com- und AWS-Betriebsleistungen basieren, um anomales Anwendungsverhalten zu erkennen und kritische Probleme aufzudecken, bevor sie zu Ausfällen oder Serviceunterbrechungen führen.

Open Source

Wir bieten Services an, die auf beliebter Open Source-Beobachtbarkeitssoftware basieren und mit ihr vollständig kompatibel sind. Sie können weiterhin Tools nutzen, mit denen Sie vertraut sind und in die Sie bereits investiert haben, vermeiden so aber den undifferenzierten Aufwand in Bezug auf Skalierung und Sicherheit.

Eine sichere, produktionsbereite, AWS-unterstützte Distribution des OpenTelemetry-Projekts. Hiermit müssen Sie Ihre Anwendungen nur einmal instrumentieren, um korrelierte Metriken und Traces an mehrere AWS- und Partner-Überwachungslösungen zu senden.

Ein verwalteter Überwachungsservice, der auf der beliebten Open-Source-Überwachungs- und Benachrichtigungslösung Prometheus basiert, die für Containerumgebungen optimiert wurde. Verwenden Sie die Prometheus-Abfragesprache (PromQL), um die Leistung von containerisierten Workloads zu überwachen.

Ein vollständig verwalteter Service, der auf der beliebten Open-Source-Analyseplattform Grafana basiert. Abfragen, Visualisieren, Warnen und Verstehen von Metriken, unabhängig davon, wo sie gespeichert sind. Erstellen, erforschen und teilen Sie Beobachtbarkeits-Dashboards.

Amazon OpenSearch Service vereinfacht die Durchführung von interaktiven Protokollanalysen, Anwendungsüberwachung in Echtzeit, Website-Suche und mehr. OpenSearch ist eine von Elasticsearch abgeleitete Open-Source-Suite für verteilte Suche und Analyse. Amazon OpenSearch Service bietet die neuesten Versionen von OpenSearch, Unterstützung für 19 Versionen von Elasticsearch (Versionen 1.5 bis 7.10) und Visualisierungsfunktionen mit OpenSearch Dashboards und Kibana (Versionen 1.5 bis 7.10).

Kundenerfahrungen

Mapbox

Mapbox

Mapbox ist eine Open-Source-Kartenplattform für individuell gestaltete Karten, die jeden Monat mehr als 300 Millionen Menschen erreicht. Mapbox verwendet Amazon CloudWatch für die Aufnahme mehrerer Datenquellen - einschließlich nativer AWS-Metriken, benutzerdefinierter Metriken und Protokolle - sowie für die Überwachung und Visualisierung wichtiger Arbeitslasten und die Ressourcenoptimierung.

"Wir wollten unsere gesamte Überwachung, Protokollierung, Metriken und Alarmierung unter einem Tool konsolidieren.source optimization. CloudWatch hat uns geholfen, den operativen Aufwand für das Einrichten, Konfigurieren und Lernen von Systemen von Drittparteien zu verringern. Unsere Teams nutzen CloudWatch ausgiebig zur Überwachung von Fehlerraten und Statuscodes für mehrere hochkarätige Workloads. Wir verwenden CloudWatch auch, um Auto-Scaling-Aktionen zu automatisieren, wodurch wir die Kosten der Amazon EC2-Instance-Typen, die unsere Amazon ECS-Cluster betreiben, optimieren können. Mit CloudWatch Events können wir den Teams Auslastungs- und Preisinformationen zur Verfügung stellen, damit sie die Kontosicherheit prüfen, AWS Lambda-Aktionen für Compliance- und Sicherheitsanwendungsfälle auslösen und unsere Ressourcen über die Cloud planen können. CloudWatch ermöglicht die nächste Stufe der Automatisierung und erweitert die Kapazität jedes Einzelnen."

Emily McAfee, Platform Engineering Manager - Mapbox

Pushpay

Pushpay

Das Ziel von Pushpay ist es, Menschen zusammenzubringen, indem es die Gemeinschaft, Verbindung und Zugehörigkeit stärkt. Wir entwickeln erstklassige Lösungen für die Veröffentlichung von Spenden und mobilen Apps, um Unternehmen zu helfen, ihre Gemeinschaften zu vergrößern.

"Unsere derzeitige Log-Analyse-Lösung erfordert einen hohen Einrichtungs- und Wartungsaufwand, hat unterschiedliche Aufbewahrungsanforderungen und ist kostspielig, was es unserem Engineering-Team unmöglich macht, sowohl in Entwicklungs- als auch in Testumgebungen auf die Protokolle zuzugreifen und diese abzufragen. Mit CloudWatch Logs Insights sind wir nun in der Lage, Protokolle innerhalb von CloudWatch Logs abzufragen, was die betriebliche Komplexität reduziert. Pay-per-Query gibt uns die Flexibilität, in unserem eigenen Tempo zu skalieren, und unsere Techniker können damit beginnen, Protokolle zu konsumieren und abzufragen, ohne darauf zu warten, dass die Einrichtung, Integration und Ingestion mit unserer aktuellen Lösung stattfindet. Wir profitieren auch von der Anzeige von Metriken und Protokollen, die eine schnellere Fehlersuche ermöglichen. Logs Insights ist eine effektive und kostengünstige Lösung für unsere Ingenieure, um ihre Anwendungen zu überwachen und Log-Diving durchzuführen - alles von einer einzigen AWS-Konsole aus."

Peter Goodman, Director Site Reliability Engineering - Pushpay

SendGrid

SendGrid

SendGrid ist ein Anbieter von Cloud-E-Mails und versendet jeden Monat mehr als 40 Milliarden E-Mails für mehr als 69.000 zahlende Kunden. SendGrid hat Amazon CloudWatch schon früh in seiner Migration zu AWS übernommen, um Systemtransparenz, betriebliche Einblicke und Ressourcenoptimierung zu erhalten.

"Mit CloudWatch können wir Metriken von AWS-Services wie Amazon EC2, Amazon Kinesis, Amazon DynamoDB und Amazon API Gateway sowie Protokolle von AWS Lambda-Funktionen sammeln. Wir schätzten die Möglichkeit der nativen Integration, ohne die Notwendigkeit eines selbst verwalteten Stacks oder eines SaaS-Drittanbieters. So konnten wir sehr schnell mit der Alarmierung, des schnellen Auto Scalings und der Kapazitätsplanung beginnen. Die Möglichkeit, unsere primären Anwendungsfälle schnell und einfach zu adressieren, machte CloudWatch zu einer bevorzugten Lösung."

Joshua Barratt, Architect II - SendGrid

Lernen von Beobachtbarkeit in der praktischen Übung

Im interaktiven und umfassenden Workshop „One Observability“ können Sie Amazon CloudWatch und AWS X-Ray praktisch einsetzen. Im Workshop werden Sie eine komplexe Microservices-Anwendung bereitstellen und Überwachung und Beobachtbarkeit in einer modernen Umgebung einrichten. Sie gewinnen ein klares Verständnis für Protokollierung, Metriken, Containerüberwachung sowie serverlose Überwachung und Techniken zur Ablaufverfolgung.

Workshop starten 
Was gibt's Neues?
Datum (neuestes bis ältestes)
  • Datum (neuestes bis ältestes)
1
Keine Ergebnisse gefunden.
Blog
Datum
  • Datum
1
Es wurden keine Blogs gefunden, die diesen Kriterien entsprechen.

Entdecken Sie weitere Anwendungsfälle für die Verwaltung und Steuerung in AWS

Page-Illo_AWS-Management-Governance_Open and Custom Resource Provisioning
Bereitstellung und Orchestrierung »

Ressourcen erstellen, bereitstellen und gemeinsam nutzen

Page-Illo_AWS-Management-Governance_Automated Configuration Compliance and Auditing
Konfiguration, Compliance und Auditing »

Prüfen und Korrigieren Ihrer Ressourcenkonfigurationen

Page-Illo_AWS-Management-Governance_Centralized and Automated Operations Management
Zentralisiertes Betriebsmanagement »

Verwalten Ihres Cloudbetriebs

Page-Illo_AWS-Management-Governance_Governance at Scale
Unternehmens-Governance und -kontrolle »

Aufbau einer zentral verwalteten, sicheren AWS-Umgebung mit mehreren Konten