Fonctionnalités de l'agent AWS DevOps
Réponse autonome aux incidents
Ouvrir toutL’agent AWS DevOps s'intègre à des systèmes de gestion des tickets et d'alerte tels que ServiceNow pour lancer automatiquement des enquêtes à partir des tickets d'incident, accélérant ainsi la réponse aux incidents dans vos flux de travail existants et réduisant le temps moyen de résolution (MTTR).
Vous pouvez également lancer et guider des enquêtes à l'aide d’un chat interactif. L'agent AWS DevOps agit comme un membre de votre équipe opérationnelle et travaille directement dans vos outils de collaboration tels que ServiceNow et Slack pour partager ses conclusions et coordonner les réponses. Si nécessaire, créez un dossier AWS Support directement à partir d'une enquête, afin de fournir aux experts AWS Support un contexte immédiat pour une résolution plus rapide.
L’agent AWS DevOps trie automatiquement les incidents et corrèle les alarmes associées afin d’identifier celles qui proviennent du même événement. Cela accélère la réponse aux incidents en permettant de comprendre immédiatement quelles alarmes sont liées et lesquelles nécessitent une enquête distincte, ce qui réduit le bruit et permet aux équipes de se concentrer en priorité sur les problèmes les plus critiques.
L’agent AWS DevOps s'intègre aux outils d'observabilité, aux référentiels de code et aux pipelines CI/CD pour mettre en corrélation et analyser les données de télémétrie, de code et de déploiement, en partageant ses hypothèses explorées, ses observations et ses résultats sur les causes profondes. Grâce à des enquêtes systématiques, l’agent AWS DevOps identifie les causes profondes des problèmes liés à des modifications du système, à des anomalies de saisie, à des limites de ressources, à des défaillances de composants et à des problèmes de dépendance dans l'ensemble de votre environnement.
Une fois que l'agent AWS DevOps a identifié la cause profonde, il fournit des plans d'atténuation détaillés, qui incluent des actions pour résoudre l'incident, valider le succès et annuler une modification si nécessaire. L’agent AWS DevOps fournit également des instructions prêtes à l'emploi qui peuvent être mises en œuvre par un autre agent frontalier, par exemple des améliorations de code pouvant être mises en œuvre par l'agent autonome Kiro.
L’agent AWS DevOps renforce les capacités d’enquête en examinant les enquêtes passées afin de créer des compétences d’enquête acquises. La compétence d’enquête acquise analyse les enquêtes passées pour apprendre à trier les événements et à générer des analyses des causes racines ainsi que des plans d’atténuation de manière plus efficace et plus rapide, devenant ainsi plus performante au fil du temps.
- Modifications du système : si un incident est dû à la limitation d'Amazon DynamoDB en raison d'une récente modification de code qui entraîne une latence élevée en raison d'une utilisation inefficace, l'agent AWS DevOps peut recommander d'annuler la modification afin d'atténuer immédiatement cette modification.
- Modifications du système : si un incident est causé par des erreurs d'abonnement Amazon SNS dues à une incompatibilité des politiques de filtrage suite au déploiement d'un code, l'agent AWS DevOps peut recommander d'annuler la modification de code qui a modifié la structure du message afin de remédier immédiatement à la situation afin de rétablir le flux des messages.
- Anomalies de saisie : si un incident est causé par la limitation des notifications par AWS Lambda en raison d'un trafic élevé dépassant les limites, l'agent AWS DevOps peut recommander d'augmenter les limites de simultanéité à titre d'atténuation immédiate.
- Anomalies de saisie : si un incident est causé par des échecs de publication de messages Amazon SNS dus à des problèmes de taille de message, l'agent AWS DevOps peut recommander d'ajouter une validation à la publication des messages Amazon SNS afin d'atténuer immédiatement les risques.
- Limites de ressources : si un incident est causé par un ralentissement de l'API dû à un dépassement des limites de débit, l'agent AWS DevOps peut recommander d'augmenter les limites de débit/rafale à titre d'atténuation immédiate.
- Limites de ressources : si un incident est causé par la limitation d'Amazon DynamoDB en raison d'une capacité d'écriture dépassée, l'agent AWS DevOps peut recommander d'augmenter la capacité d'écriture à titre d'atténuation immédiate.
- Défaillances de composants : si un incident est causé par une latence de démarrage à froid due à une dégradation des performances, l'agent AWS DevOps peut recommander d'augmenter la simultanéité provisionnée à titre d'atténuation immédiate.
Grâce à une investigation systématique des alarmes résultant de modifications du système, d'anomalies d'entrée, de limites de ressources, de défaillances de composants et de problèmes de dépendance sur l'ensemble de votre stack, AWS DevOps Agent guide les équipes DevOps en leur proposant des mesures d'atténuation ciblées, réduisant ainsi le temps moyen de résolution (MTTR) de quelques heures à quelques minutes. Par exemple :
Prévention proactive des incidents
Ouvrir toutL’agent AWS DevOps analyse les tendances observées dans les incidents passés afin de fournir des recommandations exploitables qui renforcent quatre domaines clés : l’observabilité, l’optimisation de l’infrastructure, l’amélioration du pipeline de déploiement et la résilience des applications. Par exemple, l’agent AWS DevOps peut identifier des lacunes dans les tests qui auraient empêché un problème d’atteindre la production. Les recommandations incluent également des spécifications prêtes à l’emploi pour confier la mise en œuvre à votre agent de codage ou à un collègue afin de mettre à jour le code de l’application ou de l’infrastructure. Cela favorise l’amélioration continue sans qu’il soit nécessaire de gérer un backlog.
L’agent AWS DevOps identifie les lacunes en matière de couverture d'observabilité et les opportunités pour affiner vos alertes, réduisant ainsi le temps moyen de détection (MTTD) afin que vous puissiez identifier les problèmes avant qu'ils ne s'aggravent. Par exemple, après avoir constaté que la détection des incidents liés à des défaillances récentes prenait trop de temps, l’agent AWS DevOps peut recommander de mettre en œuvre une surveillance et une détection des anomalies plus proches de la source d’erreur afin de réduire le temps de détection et d’éviter des interruptions prolongées.
Grâce à une boucle d'apprentissage, l’agent AWS DevOps continue d'affiner ses recommandations, de les aligner sur vos priorités opérationnelles et de fournir des recommandations de plus en plus pertinentes adaptées aux besoins de votre organisation en fonction des commentaires de votre équipe sur les recommandations.
L’agent AWS DevOps analyse les tendances observées dans les incidents passés afin de fournir des recommandations ciblées visant à prévenir les pannes futures et à renforcer la résilience du système. En évaluant les incidents réels, il fournit des améliorations spécifiques et exploitables qui réduisent à la fois la fréquence et l’impact de problèmes similaires dans quatre domaines clés : l’observabilité, l’optimisation de l’infrastructure, l’amélioration du pipeline de déploiement et la résilience des applications.
- Amélioration de l'observabilité : l'agent AWS DevOps peut recommander d'ajuster les seuils d'alerte de 15 défaillances en 20 minutes à 3 défaillances en 5 minutes pour les systèmes d'authentification critiques afin de réduire le temps de détection et d'éviter des interruptions des intégration prolongées.
- Amélioration de l'observabilité : l'agent AWS DevOps peut recommander la mise en œuvre de filtres métriques CloudWatch ciblés pour détecter les modèles anormaux d' « accès refusé » lors des changements de rôle IAM, permettant ainsi une détection plus rapide par rapport à une alerte précédente.
- Amélioration de l'infrastructure : après avoir analysé que le schéma de table Amazon DynamoDB ne correspond pas au modèle d'accès principal du service, obligeant à effectuer des analyses complètes inefficaces des tables, l'agent AWS DevOps recommande de créer un index secondaire global (GSI) avec l'attribut le plus fréquemment sollicité comme clé de partition. Cela transformerait les opérations d’analyses en requêtes, réduisant ainsi la latence de 2 500 à 3 500 ms à moins de 100 ms et empêchant la limitation du débit.
- Amélioration de l'infrastructure : l'analyse de l'agent AWS DevOps montre que l'application dispose de ressources suffisantes, mais qu'elle est limitée par un goulot d'étranglement à un seul pod où toutes les demandes sont mises en file d'attente vers une seule instance pendant les pics de trafic. L’agent AWS DevOps peut recommander d'ajouter Horizontal Pod Autoscaler au cluster Kubernetes, qui fera automatiquement évoluer le service horizontalement en fonction de la demande, répartissant ainsi efficacement la charge sur plusieurs pods.
- Pipeline de déploiement : après avoir analysé les échecs des déploiements Amazon ECS, l'agent AWS DevOps peut recommander d'activer les annulations automatiques et de surveiller les états de déploiement avec Amazon EventBridge. Ces modifications permettront de détecter et de résoudre rapidement les échecs liés à la vérification de l'état des tâches, évitant ainsi toute interruption des transactions des clients.
- Pipeline de déploiement : après avoir analysé les échecs de déploiement, l'agent AWS DevOps peut recommander une validation préalable au déploiement obligatoire de la connectivité Amazon Managed Service for Prometheus pour les définitions de tâches Amazon ECS. Cette recommandation permettrait de réduire les échecs de déploiement en détectant les problèmes de connectivité pendant le processus de déploiement.
Gestion des tâches SRE à la demande
Ouvrir toutPosez n’importe quelle question opérationnelle à l’agent DevOps et obtenez des réponses immédiates et contextualisées, avec un ancrage sur votre infrastructure réelle, sans avoir à passer d’une console à l’autre ou à utiliser différents outils de surveillance. Au-delà des questions-réponses, créez, enregistrez et partagez des graphiques et des rapports personnalisés, tels que des résumés quotidiens de l’état de fonctionnement des opérations ou des tendances des erreurs 4xx, qui vous aident à suivre les métriques opérationnelles et à communiquer des informations pertinentes à votre équipe.
L’agent AWS DevOps offre des intégrations natives avec vos outils existants, notamment les outils d’observabilité (CloudWatch, Dynatrace, Datadog, New Relic, Splunk), les référentiels de code et les pipelines CI/CD (GitHub, GitLab, Azure DevOps), ainsi que les outils de gestion des tickets et de collaboration (ServiceNow, PagerDuty, Slack) afin d’identifier rapidement les causes racines, de prévenir de manière proactive les incidents futurs et d’obtenir des réponses contextuelles à la demande concernant votre environnement.
Connectez-vous à des serveurs MCP privés ou distants pour intégrer des outils supplémentaires, notamment des systèmes propriétaires, des plateformes spécialisées, des systèmes de gestion des versions gérés par le client et la documentation relative à l’infrastructure interne. Cela permet à l’agent AWS DevOps d’accéder en toute sécurité à vos outils, données et flux de travail internes afin de fournir des informations plus précises et d’automatiser les actions en utilisant le contexte réel de votre organisation.
L’agent AWS DevOps apprend à connaître votre environnement, en détectant automatiquement les applications, leurs services composants et les ressources qui composent ces services. Grâce à sa fonctionnalité de topologie, l’agent analyse tous les outils configurés, prend en compte les données fournies par l’utilisateur et acquiert une compréhension approfondie des ressources de vos applications, de leurs relations et de leurs flux clés. Il cartographie ces relations dans une topologie dynamique et continuellement mise à jour, vous offrant ainsi une véritable vue d’ensemble de vos applications. En corrélant cette carte des ressources en temps réel avec les données de télémétrie, de code et de déploiement, l’agent AWS DevOps acquiert une compréhension approfondie de votre environnement, permettant une résolution plus rapide des incidents, une prévention proactive des problèmes futurs et des réponses adaptées au contexte, avec un ancrage dans le fonctionnement de vos applications.
Ajoutez des compétences modulaires et réutilisables que l’agent AWS DevOps peut invoquer pour exécuter des tâches de manière cohérente et fiable. Les compétences définies par les clients et les partenaires vous permettent d’étendre les capacités de l’agent pour l’adapter à votre environnement. Par exemple, vous pouvez définir une compétence qui permet à l’agent AWS DevOps d’interroger les journaux de base de données sur site en lui fournissant des informations sur l’emplacement des journaux, les conventions de nommage et les stratégies de requête. En transmettant les connaissances institutionnelles à l’agent, vous pouvez optimiser tous les aspects, de la découverte des services et de l’analyse des journaux aux dossiers d’exploitation pour les incidents et aux informations sur la responsabilité des équipes.
Étapes suivantes
Avez-vous trouvé les informations que vous recherchiez ?
Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages