Agent AWS DevOps
Atteignez l’excellence opérationnelle grâce à un agent d’IA autonome qui résout et prévient de manière proactive les incidents
Pourquoi l’agent AWS DevOps ?
L’agent AWS DevOps est votre coéquipier opérationnel toujours disponible. Il résout et prévient les incidents de manière proactive, optimise la fiabilité et les performances des applications et gère les tâches SRE à la demande dans les environnements AWS, multicloud et sur site. Il analyse les incidents et identifie les améliorations opérationnelles comme le ferait un ingénieur DevOps expérimenté : en apprenant à connaître vos applications et leurs interrelations, en travaillant avec vos outils d’observabilité, vos dossiers d’exploitation, vos référentiels de code et vos pipelines CI/CD, et en corrélant les données de télémétrie, de code et de déploiement dans tous les environnements. Posez des questions, obtenez des réponses contextuelles instantanées et créez des graphiques et des rapports personnalisés que vous pouvez enregistrer et partager avec votre équipe.
Avantages
L’agent DevOps AWS est votre ingénieur de garde autonome et disponible en permanence. Il commence à étudier le moment où une alerte est émise, que ce soit à 2 heures du matin ou pendant les heures de pointe, afin de rétablir rapidement les performances optimales de votre application. L’agent DevOps AWS trie les incidents de manière autonome 24 heures sur 24, 7 jours sur 7, en analysant les causes racines et en prenant des mesures pour les résoudre. Il utilise sa compréhension des ressources et des relations de vos applications pour comprendre rapidement les dépendances et les interactions. L’agent DevOps AWS rationalise la réponse aux incidents en acheminant automatiquement les observations, les résultats et les étapes d’atténuation via vos canaux de communication préférés, comme Slack, ServiceNow et PagerDuty.
L’agent AWS DevOps analyse les tendances observées dans les incidents passés afin de fournir des recommandations exploitables qui renforcent quatre domaines clés : l’observabilité, l’optimisation de l’infrastructure, l’amélioration du pipeline de déploiement et la résilience des applications. Les recommandations incluent des spécifications prêtes à l’emploi pour confier la mise en œuvre à votre agent DevOps ou à un collègue afin de mettre à jour le code de l’application ou de l’infrastructure. Cela favorise l’amélioration continue sans qu’il soit nécessaire de gérer un backlog.
L’agent AWS DevOps vous permet d’accéder aux informations inexploitées de vos données opérationnelles en les intégrant en toute sécurité à vos flux de travail et à vos outils d’observabilité, à vos dossiers d’exploitation, à vos référentiels de code et à vos pipelines CI/CD. L’agent AWS DevOps offre des intégrations natives avec des outils d’observabilité tels qu’Amazon CloudWatch, Dynatrace, Datadog, Grafana, New Relic et Splunk, ainsi qu’avec des référentiels de code et des pipelines CI/CD comme Azure DevOps, GitHub et GitLab. Vous pouvez étendre l’agent AWS DevOps au-delà de ses intégrations intégrées en vous connectant en toute sécurité à vos serveurs MCP privés ou distants, ce qui permet des intégrations avec des outils supplémentaires tels que les outils personnalisés de votre organisation, des plateformes spécialisées ou des systèmes de tickets propriétaires.
L’agent AWS DevOps tire parti de sa connaissance approfondie de votre environnement, vous permettant d’explorer plus en détail votre environnement applicatif, au-delà du simple fait de poser des questions, pour créer, enregistrer et partager des graphiques et des rapports personnalisés. Interrogez l’état des ressources, analysez les schémas d’incidents, suivez les déploiements et explorez les recommandations de prévention, le tout via une interface en langage naturel. Créez, enregistrez et partagez des graphiques et des rapports personnalisés qui vous aident à suivre les métriques de fonctionnement et à communiquer des informations à votre équipe.
Clients
United Airlines
« Chez United Airlines, nous transportons plus de 500 000 passagers par jour. Nous disposons d’environ 38 000 agents Dynatrace OneAgent assurant la surveillance d’un environnement cloud hybride, de plus de 500 comptes AWS, de 20 000 fonctions AWS Lambda, de microservices Amazon ECS et de nombreux autres services. À cette échelle, nous utilisions auparavant plusieurs outils remplissant les mêmes fonctions dans différents domaines, ce qui créait des lacunes et des boîtes noires lors du dépannage. L’agent AWS DevOps avec Dynatrace change complètement la donne. Dynatrace détecte rapidement et avec précision les problèmes, identifie la couche applicative responsable, puis l’agent approfondit l’analyse et fournit des étapes précises pour résoudre le problème, le tout directement intégré à Dynatrace. Au lieu de déclencher un incident à 3 heures du matin et de passer d’un outil à l’autre, nous avons désormais les réponses à portée de main, un tableau de bord unique. »
Jason Eckhart, ingénieur principal, Fiabilité et observabilité, United Airlines
T-Mobile
« Lorsque AWS a lancé l’agent DevOps, T-Mobile était de la partie dès le premier jour. En tant que partenaire de conception, nous avons constaté à quel point l’agent AWS DevOps peut améliorer considérablement l’analyse des causes racines dans les environnements de production. Nos retours d’expérience concrets ont directement influencé l’évolution du produit.
Notre infrastructure s’étend sur plusieurs clouds et environnements sur site, les journaux d’application étant centralisés dans notre déploiement Splunk sur site. La capacité de l’agent AWS DevOps à s’intégrer de manière transparente à Splunk et à analyser les journaux dans ces divers environnements a eu un impact significatif alors que nous continuons à tester la solution. »
Aravind Manchireddy, vice-président directeur, Opérations technologiques, T-Mobile
Western Governors University
La Western Governor’s University (WGU), une université en ligne de premier plan accueillant plus de 191 000 étudiants, a été l’une des premières organisations à déployer l’agent DevOps d’Amazon en production, avant même le lancement de la préversion lors de re:Invent. En tant qu’utilisateur à grande échelle de Dynatrace, la WGU tire parti de l’intégration native de Dynatrace dans l’agent DevOps, ce qui permet à Dynatrace Intelligence de réaliser le routage automatique des enregistrements de problèmes vers l’agent DevOps pour analyse et de renvoyer directement les résultats enrichis vers Dynatrace.
Lors d’une récente enquête en production, l’équipe SRE de WGU a utilisé l’agent DevOps pour analyser un scénario de perturbation de service, réduisant ainsi le temps total de résolution d’environ deux heures à seulement 28 minutes, soit une amélioration de 77 % du MTTR. L’agent DevOps a rapidement identifié la cause racine au sein de la configuration d’une fonction Lambda, mettant en évidence des connaissances opérationnelles critiques qui n’existaient auparavant que dans une documentation interne non répertoriée.
« Il a permis de fournir la preuve irréfutable, en identifiant que Lambda était la cause. L’enquête a produit des métriques quasi irréprochables qui correspondaient à ce que nous observions en front-end. » Il a ajouté : « Hier a été une immense victoire ; si nous pouvons continuer à accélérer la découverte, je ne saurais décrire à quel point ce serait une victoire pour notre organisation. » Avec l’intention de tirer parti de la fonctionnalité « Skills » de l’agent DevOps, la WGU est en bonne voie pour réduire encore davantage le temps d’investigation.
Angel Marchena, directeur des opérations techniques, Western Governors University
Zenchef
Zenchef est une plateforme technologique destinée aux restaurants qui aide ces derniers à gérer les réservations, le service en salle, les menus numériques, les paiements et le marketing client à partir d’un système unique sans commission. Avec une équipe DevOps dédiée gérant plusieurs environnements de production à travers de multiples divisions, celle-ci a été mise à rude épreuve lorsqu’un problème d’intégration d’API affectant un partenaire en aval est apparu lors d’un hackathon d’entreprise, alors que les ingénieurs étaient occupés par l’événement et que rien d’important n’apparaissait dans la surveillance pour les orienter dans la bonne direction.
Plutôt que de retirer les ingénieurs du hackathon, l’équipe a soumis le problème à l’agent DevOps. Elle a résolu le problème de manière systématique, en écartant l’authentification comme facteur contributif, en recentrant l’enquête sur les déploiements ECS et, finalement, en identifiant la cause racine : une régression du code dans laquelle une nouvelle version ne parvenait pas à gérer une valeur d’énumération non reconnue dans la base de données. L’enquête complète s’est achevée en 20 à 30 minutes, soit une réduction d’environ 75 % par rapport aux 1 à 2 heures qu’il aurait fallu pour la mener manuellement, et les résultats ont été communiqués directement à l’ingénieur responsable.
« Pendant le hackathon, nous n’avions pratiquement aucune marge de manœuvre pour mener l’enquête, et nous n’en avons pas eu besoin. Nous essayons toujours d’avoir une longueur d’avance, et ce type d’enquête proactive n’est tout simplement pas toujours possible autrement. L’agent DevOps nous offre de nouvelles façons de comprendre le comportement de nos plateformes. »
Theo Massard, responsable de l’ingénierie des plateformes, Zenchef
Ressources
Cas d’utilisation
Réponse et résolution des incidents
L’agent DevOps AWS trie les incidents de manière autonome et guide les équipes vers une résolution rapide. L’agent DevOps AWS s’intègre aux outils d’observabilité, aux référentiels de code et aux pipelines CI/CD pour corréler et analyser les données de télémétrie, de code et de déploiement, en partageant ses hypothèses, ses observations et ses résultats. Grâce à des enquêtes systématiques, l’agent DevOps AWS identifie la cause racine des problèmes liés à des modifications du système, des anomalies de saisie, des limites de ressources, des défaillances de composants ou des problèmes de dépendance dans l’ensemble de votre environnement.
Coordination automatisée de la réponse aux incidents
Vous pouvez lancer et guider des enquêtes à l’aide du chat interactif. L’agent DevOps AWS agit en tant que membre de votre équipe opérationnelle et travaille directement au sein de vos outils de collaboration, comme ServiceNow et Slack pour partager les résultats et coordonner les réponses. Si nécessaire, créez un cas AWS Support directement à partir d’une enquête, en fournissant aux experts AWS Support un contexte immédiat pour une résolution plus rapide.
Prévenez les futurs incidents opérationnels
L’agent DevOps AWS analyse les tendances des incidents historiques afin de fournir des recommandations exploitables qui renforcent quatre domaines clés : l’observabilité, l’optimisation de l’infrastructure, l’amélioration du pipeline de déploiement et la résilience des applications.
Accélérez le traitement des tâches SRE à la demande
Obtenez des réponses immédiates et contextualisées à vos questions opérationnelles sans avoir à naviguer entre les consoles. Interrogez l’état des ressources, analysez les schémas d’incidents, suivez les déploiements et explorez les recommandations par le biais d’une conversation naturelle. Au-delà des questions-réponses, créez, enregistrez et partagez des graphiques et des rapports personnalisés, tels que des résumés quotidiens de l’état de fonctionnement ou les tendances des erreurs 4xx. L’historique des conversations est conservé, ce qui vous permet de vous appuyer sur des requêtes antérieures sans perdre le contexte.
Étapes suivantes
Avez-vous trouvé les informations que vous recherchiez ?
Faites-nous part de vos commentaires afin que nous puissions améliorer le contenu de nos pages