Überspringen zum Hauptinhalt

Features von AWS DevOps Agent

Immer aktive, autonome Reaktion auf Vorfälle

Alles öffnen

Der AWS-DevOps-Agent lässt sich in Ticketing- und Alarmsysteme wie ServiceNow integrieren, um automatisch Untersuchungen anhand von Incident-Tickets zu starten. Dadurch wird die Reaktion auf Vorfälle innerhalb Ihrer bestehenden Workflows beschleunigt und die durchschnittliche Zeit bis zur Lösung (MTTR) reduziert.

Mithilfe des interaktiven Chats können Sie auch Ermittlungen einleiten und leiten. AWS DevOps Agent fungiert als Mitglied Ihres Betriebsteams und arbeitet direkt in Ihren Kollaborationstools wie ServiceNow und Slack, um Erkenntnisse auszutauschen und die Reaktion zu koordinieren. Erstellen Sie bei Bedarf direkt aus einer Untersuchung heraus einen AWS-Support-Fall, sodass die AWS-Support-Experten sofort einen Kontext für eine schnellere Lösung erhalten.

Der AWS-DevOps-Agent lässt sich in Beobachtbarkeit-Tools, Code-Repositorys und CI/CD-Pipelines integrieren, um Telemetrie-, Code- und Bereitstellung-Daten zu korrelieren und zu analysieren und die erforschten Hypothesen, Beobachtungen und Erkenntnisse zu den Ursachen zu teilen. Durch systematische Untersuchungen identifiziert AWS DevOps Agent die Hauptursache von Problemen, die auf Systemänderungen, Eingabeanomalien, Ressourcenbeschränkungen, Komponentenausfälle und Abhängigkeitsprobleme in Ihrer gesamten Umgebung zurückzuführen sind.

Sobald AWS-DevOps-Agent die Ursache identifiziert hat, stellt er detaillierte Maßnahmenpläne zur Verfügung, die Schritte zur Behebung des Vorfalls, zur Überprüfung des Erfolgs und gegebenenfalls zur Rückgängigmachung einer Änderung umfassen. Der AWS DevOps Agent stellt auch agentenfertige Anweisungen bereit, die von einem anderen Frontier-Agenten implementiert werden können, beispielsweise Code-Verbesserungen, die vom autonomen Kiro-Agenten implementiert werden können.

Durch die systematische Untersuchung von Alarmen, die auf Systemänderungen, Eingabeanomalien, Ressourcenbeschränkungen, Komponentenausfälle und Abhängigkeitsprobleme in Ihrem gesamten Stack zurückzuführen sind, unterstützt AWS DevOps Agent DevOps-Teams mit gezielten Maßnahmen zur Risikominderung, wodurch die durchschnittliche Lösungszeit (MTTR) von Stunden auf Minuten reduziert wird. Beispiel:

  • Systemänderungen: Wenn ein Vorfall dadurch verursacht wird, dass Amazon DynamoDB aufgrund einer kürzlich erfolgten Codeänderung gedrosselt wird, die zu einer hohen Latenz aufgrund ineffizienter Nutzung führt, empfiehlt AWS DevOps Agent möglicherweise, die Änderung rückgängig zu machen, um sofort Abhilfe zu schaffen.
  • Systemänderungen: Wenn ein Vorfall durch Amazon SNS-Abonnementfehler aufgrund einer Nichtübereinstimmung der Filterrichtlinien nach einer Codebereitstellung verursacht wird, empfiehlt der AWS DevOps Agent möglicherweise, die Codeänderung, die die Nachrichtenstruktur verändert hat, rückgängig zu machen, um sofort Abhilfe zu schaffen, um den Nachrichtenfluss wiederherzustellen.
  • Eingabeanomalien: Wenn ein Vorfall durch eine Drosselung von AWS Lambda bei Benachrichtigungen aufgrund von hohem Datenverkehr verursacht wird, der die Grenzwerte überschreitet, empfiehlt AWS DevOps Agent möglicherweise, die Grenzwerte für die Gleichzeitigkeit als sofortige Abhilfemaßnahme zu erhöhen.
  • Eingabeanomalien: Wenn ein Vorfall durch Fehler bei der Veröffentlichung von Amazon SNS-Nachrichten aufgrund von Problemen mit der Nachrichtengröße verursacht wird, empfiehlt AWS DevOps Agent möglicherweise, als sofortige Abhilfemaßnahme eine Validierung für die Veröffentlichung von Amazon SNS-Nachrichten hinzuzufügen.
  • Ressourcenbeschränkungen: Wenn ein Vorfall durch API-Drosselung aufgrund überschrittener Ratenbeschränkungen verursacht wird, empfiehlt AWS DevOps Agent möglicherweise, als sofortige Abhilfemaßnahme die Raten-/Burst-Beschränkungen zu erhöhen.
  • Ressourcenbeschränkungen:Wenn ein Vorfall durch eine Drosselung von Amazon DynamoDB aufgrund einer überschrittenen Schreibkapazität verursacht wird, empfiehlt AWS DevOps Agent möglicherweise, die Schreibkapazität als sofortige Abhilfemaßnahme zu erhöhen.
  • Komponentenausfälle: Wenn ein Vorfall durch eine Kaltstartlatenz aufgrund einer Leistungsminderung verursacht wird, empfiehlt AWS DevOps Agent möglicherweise, die bereitgestellte Parallelität als sofortige Abhilfemaßnahme zu erhöhen.

Zukünftige Vorfälle proaktiv verhindern

Alles öffnen

AWS DevOps Agent analysiert Muster aus historischen Vorfällen, um umsetzbare Empfehlungen zu geben, die vier Schlüsselbereiche stärken: Beobachtbarkeit, Infrastrukturoptimierung, Verbesserung der Bereitstellungspipeline und Anwendungsresilienz. Im Bereich der Infrastrukturoptimierung empfiehlt AWS DevOps Agent beispielsweise den Kubernetes Horizontal Pod Autoscaler (HPA) für EKS-Cluster, um unerwartete Traffic-Spitzen zu bewältigen. 

AWS DevOps Agent identifiziert Lücken in der Beobachtbarkeit-Abdeckung und Gelegenheiten, Ihre Alarme zu optimieren, wodurch die durchschnittliche Erkennungszeit (MTTD) verkürzt wird, sodass Sie Probleme erkennen können, bevor sie zu einem größeren Problem werden. Nachdem beispielsweise festgestellt wurde, dass die Erkennung von Vorfällen bei kürzlich aufgetretenen Ausfällen zu lange gedauert hat, empfiehlt AWS DevOps Agent möglicherweise die Implementierung einer Überwachung und Anomalieerkennung näher an der Fehlerquelle, um die Erkennungszeit zu verkürzen und längere Ausfälle zu vermeiden.

Mithilfe einer Lernschleife verfeinert AWS DevOps Agent kontinuierlich seine Empfehlungen, passt sie an Ihre betrieblichen Prioritäten an und liefert auf der Grundlage des Feedbacks Ihres Teams zu den Empfehlungen zunehmend relevante Empfehlungen, die auf die Bedürfnisse Ihres Unternehmens zugeschnitten sind.

AWS DevOps Agent analysiert Muster aus historischen Vorfällen, um gezielte Empfehlungen zu geben, die zukünftige Ausfälle verhindern und die Systemstabilität stärken. Durch die Auswertung realer Vorfälle liefert es spezifische, umsetzbare Verbesserungen, die sowohl die Häufigkeit als auch die Auswirkungen ähnlicher Probleme in vier Schlüsselbereichen reduzieren: Beobachtbarkeit, Infrastrukturoptimierung, Verbesserung der Bereitstellungspipeline und Anwendungsstabilität.

  • Verbesserung der Beobachtbarkeit: Der AWS DevOps Agent empfiehlt möglicherweise, die Alarmschwellenwerte für kritische Authentifizierungssysteme von 15 Fehlern innerhalb von 20 Minuten auf 3 Fehler innerhalb von 5 Minuten anzupassen, um die Erkennungszeit zu verkürzen und längere Integrationsausfälle zu vermeiden.
  • Verbesserung der Beobachtbarkeit: AWS DevOps Agent empfiehlt möglicherweise die Implementierung gezielter CloudWatch-Metrikfilter, um anomale „Zugriff verweigert”-Muster für IAM-Rollenänderungen zu verfolgen, was eine schnellere Erkennung im Vergleich zu einem früheren Alarm ermöglicht.
  • Verbesserung der Infrastruktur: Nach der Analyse, dass das Schema der Amazon DynamoDB-Tabelle nicht mit dem Hauptmuster zum Zugreifen des Dienstes übereinstimmt und ineffiziente vollständige Tabellenscans erzwingt, empfiehlt AWS DevOps Agent die Erstellung eines globalen sekundären Index (GSI) mit dem häufig abgefragten Attribut als Partitionsschlüssel. Dadurch würden die Vorgänge von Scans zu Abfragen umgewandelt, wodurch die Latenz von 2 500–3 500 ms auf unter 100 ms reduziert und eine Drosselung verhindert würde.
  • Infrastrukturverbesserung: Die Analyse von AWS DevOps Agent zeigt, dass die Anwendung über ausreichende Ressourcen verfügt, jedoch durch einen Single-Pod-Engpass eingeschränkt ist, bei dem alle Anforderungen während Verkehrsspitzen in einer Warteschlange zu einer Instance gesammelt werden. AWS DevOps Agent empfiehlt möglicherweise, den Kubernetes-Cluster um Horizontal Pod Autoscaler zu erweitern, wodurch der Service je nach Bedarf automatisch horizontal skaliert und die Last effektiv auf mehrere Pods verteilt wird.
  • Bereitstellungspipeline: Nach der Analyse fehlgeschlagener Amazon ECS-Bereitstellungen empfiehlt AWS DevOps Agent möglicherweise, automatische Rollbacks zu aktivieren und den Bereitstellungszustand mit Amazon EventBridge zu überwachen. Durch diese Änderungen werden Fehler bei der Zustandsprüfung des Task-Zustands schnell erkannt und behoben, wodurch Störungen bei Kundentransaktionen verhindert werden.
  • Bereitstellungspipeline: Nach der Analyse von Bereitstellungsfehlern, empfiehlt AWS DevOps Agent möglicherweise eine obligatorische Validierung der Amazon Managed Service for Prometheus-Konnektivität für Amazon ECS-Taskdefinitionen vor der Bereitstellung. Diese Empfehlung würde die Anzahl fehlgeschlagener Bereitstellungen reduzieren, indem Konnektivitätsprobleme während des Bereitstellungsprozesses erkannt werden.  

Mehr aus Ihren DevOps-Tools herausholen

Alles öffnen

Während AWS DevOps Agent Ihre Umgebung erfasst, identifiziert er Ihre Anwendungsressourcen wie Container, Netzwerkkomponenten, Protokollgruppen, Alarme und CI/CD-Bereitstellungen und bildet deren Verbindungen ab, um eine Anwendungsressourcenkarte zu erstellen. Er kombiniert diese Ressourcentopologie mit Ihren Telemetrie-, Code- und Bereitstellungsdaten, um die Ursachen von Problemen präzise zu lokalisieren.

AWS DevOps Agent bietet integrierte Integrationen mit vielen Beobachtbarkeit-Tools (Amazon CloudWatch, Dynatrace, Datadog, New Relic und Splunk), Code-Repositorys und CI/CD-Pipelines (GitHub Actions und Repositorys, GitLab Workflows und Repositorys). 

Sie können AWS DevOps Agent über seine integrierten Integrationen hinaus erweitern, indem Sie eine Verbindung zu Ihrem eigenen MCP-Server herstellen und so Integrationen mit zusätzlichen Tools wie den benutzerdefinierten Tools Ihres Unternehmens, spezialisierten Plattformen oder proprietären Ticketingsystemen ermöglichen. Wenn Sie beispielsweise eine Verbindung zu Ihrem eigenen MCP-Server herstellen, können Sie Open-Source-Beobachtbarkeit-Signale wie Grafana-Alarme und Prometheus-Metriken sowie Runbooks in Confluence integrieren. 

Haben Sie die gewünschten Informationen gefunden?

Ihr Beitrag hilft uns, die Qualität der Inhalte auf unseren Seiten zu verbessern.