- Produits›
- Opérations dans le cloud›
- Fonctionnalités de l'agent AWS DevOps
Fonctionnalités de l'agent AWS DevOps
Toujours disponible, une réponse autonome aux incidents
Ouvrir toutL’agent AWS DevOps s'intègre à des systèmes de gestion des tickets et d'alerte tels que ServiceNow pour lancer automatiquement des enquêtes à partir des tickets d'incident, accélérant ainsi la réponse aux incidents dans vos flux de travail existants et réduisant le temps moyen de résolution (MTTR).
Vous pouvez également lancer et guider des enquêtes à l'aide d’un chat interactif. L'agent AWS DevOps agit comme un membre de votre équipe opérationnelle et travaille directement dans vos outils de collaboration tels que ServiceNow et Slack pour partager ses conclusions et coordonner les réponses. Si nécessaire, créez un dossier AWS Support directement à partir d'une enquête, afin de fournir aux experts AWS Support un contexte immédiat pour une résolution plus rapide.
L’agent AWS DevOps s'intègre aux outils d'observabilité, aux référentiels de code et aux pipelines CI/CD pour mettre en corrélation et analyser les données de télémétrie, de code et de déploiement, en partageant ses hypothèses explorées, ses observations et ses résultats sur les causes profondes. Grâce à des enquêtes systématiques, l’agent AWS DevOps identifie les causes profondes des problèmes liés à des modifications du système, à des anomalies de saisie, à des limites de ressources, à des défaillances de composants et à des problèmes de dépendance dans l'ensemble de votre environnement.
Une fois que l'agent AWS DevOps a identifié la cause profonde, il fournit des plans d'atténuation détaillés, qui incluent des actions pour résoudre l'incident, valider le succès et annuler une modification si nécessaire. L’agent AWS DevOps fournit également des instructions prêtes à l'emploi qui peuvent être mises en œuvre par un autre agent frontalier, par exemple des améliorations de code pouvant être mises en œuvre par l'agent autonome Kiro.
Grâce à une investigation systématique des alarmes résultant de modifications du système, d'anomalies d'entrée, de limites de ressources, de défaillances de composants et de problèmes de dépendance sur l'ensemble de votre stack, AWS DevOps Agent guide les équipes DevOps en leur proposant des mesures d'atténuation ciblées, réduisant ainsi le temps moyen de résolution (MTTR) de quelques heures à quelques minutes. Par exemple :
- Modifications du système : si un incident est dû à la limitation d'Amazon DynamoDB en raison d'une récente modification de code qui entraîne une latence élevée en raison d'une utilisation inefficace, l'agent AWS DevOps peut recommander d'annuler la modification afin d'atténuer immédiatement cette modification.
- Modifications du système : si un incident est causé par des erreurs d'abonnement Amazon SNS dues à une incompatibilité des politiques de filtrage suite au déploiement d'un code, l'agent AWS DevOps peut recommander d'annuler la modification de code qui a modifié la structure du message afin de remédier immédiatement à la situation afin de rétablir le flux des messages.
- Anomalies de saisie : si un incident est causé par la limitation des notifications par AWS Lambda en raison d'un trafic élevé dépassant les limites, l'agent AWS DevOps peut recommander d'augmenter les limites de simultanéité à titre d'atténuation immédiate.
- Anomalies de saisie : si un incident est causé par des échecs de publication de messages Amazon SNS dus à des problèmes de taille de message, l'agent AWS DevOps peut recommander d'ajouter une validation à la publication des messages Amazon SNS afin d'atténuer immédiatement les risques.
- Limites de ressources : si un incident est causé par un ralentissement de l'API dû à un dépassement des limites de débit, l'agent AWS DevOps peut recommander d'augmenter les limites de débit/rafale à titre d'atténuation immédiate.
- Limites de ressources : si un incident est causé par la limitation d'Amazon DynamoDB en raison d'une capacité d'écriture dépassée, l'agent AWS DevOps peut recommander d'augmenter la capacité d'écriture à titre d'atténuation immédiate.
- Défaillances de composants : si un incident est causé par une latence de démarrage à froid due à une dégradation des performances, l'agent AWS DevOps peut recommander d'augmenter la simultanéité provisionnée à titre d'atténuation immédiate.
Prévenez les incidents futurs de manière proactive
Ouvrir toutL’agent AWS DevOps analyse les tendances observées dans les incidents passés afin de fournir des recommandations exploitables qui renforcent quatre domaines clés : l'observabilité, l'optimisation de l'infrastructure, l'amélioration du pipeline de déploiement et la résilience des applications. Par exemple, dans le domaine de l'optimisation de l'infrastructure, l’agent AWS DevOps recommande le Kubernetes Horizontal Pod Autoscaler (HPA) pour les clusters EKS afin de gérer les pics de trafic inattendus.
L’agent AWS DevOps identifie les lacunes en matière de couverture d'observabilité et les opportunités pour affiner vos alertes, réduisant ainsi le temps moyen de détection (MTTD) afin que vous puissiez identifier les problèmes avant qu'ils ne s'aggravent. Par exemple, après avoir constaté que la détection des incidents liés à des défaillances récentes prenait trop de temps, l'agent AWS DevOps peut recommander de mettre en œuvre une surveillance et une détection des anomalies plus proches de la source d'erreur afin de réduire le temps de détection et d'éviter des interruptions prolongées.
Grâce à une boucle d'apprentissage, l’agent AWS DevOps continue d'affiner ses recommandations, de les aligner sur vos priorités opérationnelles et de fournir des recommandations de plus en plus pertinentes adaptées aux besoins de votre organisation en fonction des commentaires de votre équipe sur les recommandations.
L’agent AWS DevOps analyse les tendances observées dans les incidents passés afin de fournir des recommandations ciblées visant à prévenir les pannes futures et à renforcer la résilience du système. En évaluant les incidents réels, il fournit des améliorations spécifiques et exploitables qui réduisent à la fois la fréquence et l'impact de problèmes similaires dans quatre domaines clés : l'observabilité, l'optimisation de l'infrastructure, l'amélioration du pipeline de déploiement et la résilience des applications.
- Amélioration de l'observabilité : l'agent AWS DevOps peut recommander d'ajuster les seuils d'alerte de 15 défaillances en 20 minutes à 3 défaillances en 5 minutes pour les systèmes d'authentification critiques afin de réduire le temps de détection et d'éviter des interruptions des intégration prolongées.
- Amélioration de l'observabilité : l'agent AWS DevOps peut recommander la mise en œuvre de filtres métriques CloudWatch ciblés pour détecter les modèles anormaux d' « accès refusé » lors des changements de rôle IAM, permettant ainsi une détection plus rapide par rapport à une alerte précédente.
- Amélioration de l'infrastructure : après avoir analysé que le schéma de table Amazon DynamoDB ne correspond pas au modèle d'accès principal du service, obligeant à effectuer des analyses complètes inefficaces des tables, l'agent AWS DevOps recommande de créer un index secondaire global (GSI) avec l'attribut le plus fréquemment sollicité comme clé de partition. Cela transformerait les opérations d’analyses en requêtes, réduisant ainsi la latence de 2 500 à 3 500 ms à moins de 100 ms et empêchant la limitation du débit.
- Amélioration de l'infrastructure : l'analyse de l'agent AWS DevOps montre que l'application dispose de ressources suffisantes, mais qu'elle est limitée par un goulot d'étranglement à un seul pod où toutes les demandes sont mises en file d'attente vers une seule instance pendant les pics de trafic. L’agent AWS DevOps peut recommander d'ajouter Horizontal Pod Autoscaler au cluster Kubernetes, qui fera automatiquement évoluer le service horizontalement en fonction de la demande, répartissant ainsi efficacement la charge sur plusieurs pods.
- Pipeline de déploiement : après avoir analysé les échecs des déploiements Amazon ECS, l'agent AWS DevOps peut recommander d'activer les annulations automatiques et de surveiller les états de déploiement avec Amazon EventBridge. Ces modifications permettront de détecter et de résoudre rapidement les échecs liés à la vérification de l'état des tâches, évitant ainsi toute interruption des transactions des clients.
- Pipeline de déploiement : après avoir analysé les échecs de déploiement, l'agent AWS DevOps peut recommander une validation préalable au déploiement obligatoire de la connectivité Amazon Managed Service for Prometheus pour les définitions de tâches Amazon ECS. Cette recommandation permettrait de réduire les échecs de déploiement en détectant les problèmes de connectivité pendant le processus de déploiement.
Tirez le meilleur parti de vos outils DevOps
Ouvrir toutAu fur et à mesure que l'agent AWS DevOps apprend à connaître votre environnement, il identifie les ressources de votre application, telles que les conteneurs, les composants réseau, les groupes de journaux, les alertes et les déploiements CI/CD, et cartographie la manière dont elles se connectent pour créer une carte des ressources de l'application. Il associe cette topologie de ressources à vos données de télémétrie, de code et de déploiement pour identifier avec précision les causes profondes des problèmes.
L’agent AWS DevOps propose des intégrations pré avec de nombreux outils d'observabilité (Amazon CloudWatch, Dynatrace, Datadog, New Relic et Splunk), des référentiels de code et des pipelines CI/CD (GitHub Actions et référentiels, GitLab Workflows et référentiels).
Vous pouvez étendre l’agent AWS DevOps au-delà de ses intégrations prédéfinies en vous connectant à votre propre serveur MCP, ce qui permet des intégrations avec des outils supplémentaires tels que les outils personnalisés de votre organisation, les plateformes spécialisées ou les systèmes de gestions des tickets internes. Par exemple, en vous connectant à votre propre serveur MCP, vous pouvez intégrer des signaux d'observabilité open source tels que des alertes Grafana, des métriques Prometheus et des dossiers d’exploitation dans Confluence.
Avez-vous trouvé les informations que vous recherchiez ?
Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages