Observabilité

Obtenez des informations et améliorez les performances de vos applications, de vos utilisateurs et de votre infrastructure

Qu'est-ce que l'observabilité ?

« Mon système fonctionne-t-il ou non ? », « Est-il rapide ou lent selon mes utilisateurs finaux ? », « Quels indicateurs de performance et accords de niveau de service devons-nous définir, et comment savoir s'ils sont respectés ? » Quand vous travaillez à la vitesse et à l'échelle du cloud, vous ne pouvez pas vous permettre d'avancer à l'aveugle : vous devez être à même de répondre à un large éventail de question opérationnelles et commerciales de ce genre. Vous devez pouvoir détecter les problèmes dès qu'ils apparaissent (idéalement avant qu'ils ne perturbent l'activité du client), réagir rapidement, et les résoudre au plus vite. Pour obtenir ces informations, vous avez besoin de systèmes observables.

Surveillance et observabilité

L'« Observabilité » décrit à quel point vous pouvez comprendre ce qu'il se passe dans un système, souvent (mais pas seulement) en l'instrumentant pour collecter des métriques, des journaux ou des traces. Dans le cloud, l'observabilité peut être difficile à obtenir, tout simplement en raison de la complexité du système. Que ce soient dans les centres de données ou dans le cloud, pour atteindre l'excellence opérationnelle et satisfaire aux objectifs commerciaux, vous devez comprendre comment vos systèmes fonctionnent. Les solutions d'observabilité vous permettent de collecter et d'analyser les données des applications et d'infrastructure de manière à comprendre leur état interne et recevoir des alertes pour dépanner et résoudre les problèmes grâce à la disponibilité et les performances de l'application, afin d'améliorer l'expérience utilisateur finale. 

Quelle est la différence entre l'observabilité et la surveillance ?

Bien que le terme « surveillance » est quelquefois défini différemment de l'observabilité, la surveillance est une activité qui rend un système observable, avec d'autres activités comme le traçage et la journalisation. Vous verrez souvent que la surveillance, le traçage et la journalisation sont définis comme les « trois piliers de l'observabilité ». Toutefois, nous verrons d'autres outils qui peuvent vous aider à obtenir l'observabilité, comme les profileurs et l'IA/Ops, ci-après.

À quoi peut me servir l'observabilité ?

L'observabilité vous permet de détecter, d'étudier et de résoudre les problèmes.

Détection

La détection d'un problème en temps opportun (idéalement avant que cela n'affecte les utilisateurs finaux) est la première étape de l'observabilité. La détection doit être proactive et à multiple facettes, y compris les alarmes, lorsque les seuils de performance atteignent une utilisation hors limites, le test synthétique et les anomalies de détection. Une métrique de performance courante est le temps moyen de détection (MTTD). Vous pouvez améliorer le MTTD grâce à un nombre d'activités et d'outils :


Surveillance

Les outils de surveillance enregistrent les statistiques de performance dans le temps de telle sorte que les schémas d'utilisation soient identifiables. Les agents de surveillance enregistrent les métriques sélectionnées à des groupes d'intervalles et stockent les données qui en résultent dans un format de séries chronologiques.

Surveillance des performances de l'application

La surveillance des performances de l'application (APM) vous permet de surveiller l'expérience client de bout en bout, à partir de navigateurs et appareils mobiles via les couches variées de la pile de l'application. L'APM commence avec la surveillance initiale, en mesure et en surveillant l'expérience des clients à partir du navigateur ou d'un appareil mobile. Au cœur de l'APM se trouvent la détection des applications, le traçage, et le diagnostique est la capacité d'identifier la partie d'une application qui cause des problèmes de performances et d'en identifier la raison rapidement.

Alertes

En cas d'anomalie, vous souhaitez recevoir des alertes en temps opportun. Cependant, une détection trop sensible peut en venir à user l'alarme. De ce fait, la gestion de l'alerte est également essentielle.

AI/Ops et détection des anomalies

Une nouvelle génération d'outils fournit désormais la puissance de l'intelligence artificielle et du machine learning pour influencer l'observabilité, à l'aide de modèles de machine learning, afin d'identifier les comportements anormaux des applications et explorer les problèmes essentiels avant qu'ils n'entraînent des pannes potentielles ou des perturbations du service.

Surveillance des infrastructures

La surveillance de l'infrastructure vous permet de corréler les métriques et les journaux à partir d'une pile d'infrastructure, afin de comprendre et de résoudre les causes fondamentales des problèmes de performance.

Surveillance de l'expérience numérique

La surveillance de l'expérience numérique (DEM) fournit des informations sur l'expérience de l'utilisateur final qui discute avec le système, en recueillant l'activité à partir de son navigateur, son application mobile ou l'interaction vocale. Les transactions synthétiques impliquent la création de scripts permettant d'imiter le comportement de l'utilisateur final lors de l'interaction avec un système. Ainsi, elles peuvent être surveillées et testées même lorsqu'elles ne sont pas vraiment en cours de chargement. La surveillance des utilisateurs réels (RUM) combine la surveillance de la disponibilité d'un site Web ou d'une API pour recevoir des demandes à partir des points de présence dans le monde, à un test A/B automatisé.

Profilage

Les outils de profilage prennent un exemple de mesures à des intervalles réguliers. Par exemple, les unités centrales de traitement (CPU) sont généralement profilées en prenant les exemples d'intervalles de temps des chemins de code sur CPU.

Télémétrie

La télémétrie est l'instrumentation des systèmes (habituellement par le biais d'agents de surveillance) tels qu'ils peuvent collecter des données sur la manière dont ces systèmes sont exécutés. Une fois la télémétrie mise en place, un système démarre la production de données qui peuvent être surveillées. Cependant, des équipes différentes au sein d'une entreprise peuvent utiliser des outils différents, ce qui a conduit à une prolifération d'agents de surveillance qui doivent être inclus dans la base de code d'une entreprise, ou vous devez la rééquiper si vous décidez d'utiliser des outils différents ou additionnels. Le projet OpenTelemetry vous permet d'instrumenter vos applications une seule fois pour l'envoi de métriques et de traces corrélées à plusieurs surveillance de surveillance.

Examen

L'examen est l'étape la plus chronophage d'un événement opérationnel. Lorsque les choses ne marchent pas bien, il peut être difficile de discerner les problèmes les plus importants à résoudre. L'utilisation de plusieurs sources d'observabilité à la fois peut vous aider à effectuer un examen rapide permettant de discerner les causes fondamentales. Mais pour le faire efficacement, vous devez corréler les données des métriques, des journaux et des traces. 


Traçage

Traçage d'événements de systèmes d'enregistrements comme la requête HTTP d'un client. Dans un traçage distribué, les détails de l'événement enregistrés comprennent le chemin de la requête dans plusieurs services/applications, associé aux métriques de la requête, telles que la latence de chaque étape du parcours.

Outils de visualisation

L'observabilité, en particulier à l'échelle du cloud, peut générer d'énormes volumes de données, qui deviennent difficiles à analyser pour un humain. Les outils de visualisation aident les humains à comprendre les données en corrélant les données d'observabilité dans des présentations graphiques intuitives.

Quand dois-je me servir de l'observabilité ?

Comprendre la santé et les performances d'une application pour améliorer l'expérience client

L'observabilité a pour principal objectif de savoir ce qu'il se passe (n'importe où et partout) dans votre système afin que vous puissiez garantir la meilleure expérience possible à vos utilisateurs finaux. Vous avez besoin de détecter les problèmes rapidement, de les étudier efficacement et de les résoudre au plus vite pour réduire les temps d'arrêt et autres perturbations pour vos clients ; une métrique courante est le temps moyen avant réparation (MTTR).

Améliorer la productivité des développeurs

Le débogage classique (en analysant les journaux ou en instrumentant les points de rupture dans le code) est fastidieux, répétitif et chronophage, et n'évolue pas correctement pour les applications de production ou celles créées à l'aide d'une architecture de micro-services ou sans serveur. Pour analyser les performances des applications distribuées, les développeurs ont besoin de métriques et de traces corrélées pour identifier l'impact sur l'utilisateur à partir de n'importe quelle source, et de trouver les chemins de code brisé ou coûteux le plus vite possible. Et ils doivent faire tout cela sans devoir ré-instrumenter leur code quand ils veulent ajouter de nouveaux outils d'observabilité à leur kit. La gamme d'outils d'observabilité appropriée peut aider les développeurs pour un meilleur codage et un meilleur test, et ce, plus rapidement.

Améliorer l'effectivité et l'efficacité opérationnelles

L'observabilité peut vous aider à trouver les améliorations de performances qu'il faut dans votre flotte cloud. En retour, cela vous permettra de réduire les coûts. Par exemple, parmi des milliers, voire des centaines de milliers d'instances, un petit pourcentage d'amélioration de performances dans la quantité de CPU utilisée par une application peut permettre de faire de économies s'élevant à des millions de dollars. De même, en vous servant de l'observabilité pour comprendre et prédire les futurs besoins en capacité, vous pouvez tirer avantage des économies de coûts disponibles à partir des réserves et du prix spot.

Quelles sont les solutions d'observabilité offertes par AWS ?

Services AWS

Nos solutions d'observabilité natives d'AWS ont été entièrement conçues pour observer d'autres services AWS, pour mettre à l'échelle du cloud et fournit une sécurité de niveau entreprise.

Ingère automatiquement les données opérationnelles de vos applications AWS et applique des modèles de machine learning qui bénéficient des années d'excellence opérationnelle d'Amazon.com et d'AWS pour identifier les comportements anormaux des applications et faire apparaître les problèmes critiques avant qu'ils ne provoquent des pannes ou des interruptions de service.

Effectue un traçage distribué dans plusieurs applications et systèmes pour aider à détecter les points de latence dans un système et s'y attaquer à des fins d'améliorations.

Ingère automatiquement les données opérationnelles de vos applications AWS et applique des modèles de machine learning qui bénéficient des années d'excellence opérationnelle d'Amazon.com et d'AWS pour identifier les comportements anormaux des applications et faire apparaître les problèmes critiques avant qu'ils ne provoquent des pannes ou des interruptions de service.

Détecte les chemins de code les plus exigeantes en CPU d'une application à l'aide des graphes de flamme et optimise votre code afin d'améliorer les performances et réduire les coûts d'infrastructure.

Open source

Nous offrons des services basés sur les logiciels d'observabilité open source les plus répandus et entièrement compatibles avec ceux-ci. Vous pouvez continuer à utiliser les outils familiers dans lesquels vous avez déjà investi, tout en évitant la tâche exigeante de mise à l'échelle et de sécurité qui lui est rattachée.

Une distribution du projet OpenTelemetry sécurisée, prête à la production et prise en charge par AWS. Vous pouvez l'utiiliser pour instrumenter vos applications une seule fois pour l'envoi de métriques et de traces corrélées à plusieurs solutions AWS et celles de partenaires de surveillance.

Un service de surveillance géré basé sur et compatible avec Prometheus, la populaire solution open source de surveillance et d'alerte optimisée pour les environnements de conteneurs. Vous pouvez utiliser le langage de requête Prometheus (PromQL) pour surveiller les performances des applications conteneurisées.

Il s'agit d'un service entièrement géré basé sur Grafana, la plateforme d'analytique open source populaire. Effectuez des requêtes, visualisez, réglez-y des alertes et comprenez les métriques où qu'elles soient stockées. Créez, explorez et partagez des tableaux de bord d'observabilité.

Amazon OpenSearch Service vous permet d'effectuer facilement des analyses de journaux interactifs, de surveiller des applications en temps réel, de rechercher du contenu sur site web, et plus encore. OpenSearch est une suite de recherche et d'analyse distribuée, open source, dérivée d'Elasticsearch. Amazon OpenSearch Service offre les dernières versions d'OpenSearch, la prise en charge de 19 versions d'Elasticsearch (versions 1.5 à 7.10) et des fonctionnalités de visualisation à technologie OpenSearch Dashboards et Kibana (versions 1.5 à 7.10).

Témoignages de clients

Mapbox

Mapbox

Mapbox est une plateforme de cartographie open source qui fournit des cartes personnalisées à plus de 300 millions de personnes chaque mois. Mapbox utilise Amazon CloudWatch pour ingérer plusieurs sources de données (y compris des métriques AWS natives, des métriques personnalisées et des journaux), ainsi que pour surveiller et visualiser des charges de travail clés et optimiser les ressources.

« Nous cherchions à consolider toutes nos activités de surveillance, de journalisation, de métriques et d'alerte en un seul outil. CloudWatch nous a aidés à alléger le fardeau opérationnel que représentaient la définition, la configuration et l'apprentissage de systèmes tiers. Nos équipes utilisent énormément CloudWatch pour surveiller les taux d'erreur et les codes d'état de plusieurs importantes charges de travail. Nous utilisons également CloudWatch pour automatiser des actions Auto Scaling, ce qui nous permet d'optimiser le coût des types d'instance Amazon EC2 qui alimentent nos clusters Amazon ECS. CloudWatch Events nous permet de fournir à nos équipes des informations d'utilisation et de tarification afin qu'elles puissent auditer la sécurité des comptes, déclencher des actions AWS Lambda pour les cas d'utilisation de conformité et de sécurité, et programmer nos ressources à l'aide du cloud. CloudWatch permet une automatisation de nouvelle génération et augmente la capacité de chacun. »

Emily McAfee, Platform Engineering Manager - Mapbox

Pushpay

Pushpay

Pushpay a pour objectif de réunir les personnes en renforçant la communauté, les relations et le sentiment d'appartenance. Nous créons des solutions de publication d'applications de dons mobiles de niveau international afin d'aider les organisations à développer leurs communautés.

« Notre solution actuelle d'analyse des journaux entraîne des frais de configuration et de maintenance, a des exigences de rétention différentes et est très coûteuse, ce qui empêche notre équipe d'ingénieurs d'accéder aux journaux et de les interroger dans des environnements tant de développement que de test. Grâce à CloudWatch Logs Insights, nous sommes désormais capables d'interroger des journaux au sein même de CloudWatch Logs, réduisant ainsi la complexité opérationnelle. Le paiement par requête nous donne la souplesse nécessaire pour évoluer à notre rythme, et nos ingénieurs peuvent commencer à consommer et interroger des journaux sans attendre la configuration, l'intégration et l'ingestion avec notre solution actuelle. Nous pouvons également consulter les métriques et les journaux, ce qui permet un dépannage plus rapide. Logs Insights est une solution efficace et bon marché qui permet à nos ingénieurs de surveiller leurs applications et d'analyser les journaux en profondeur, tout cela depuis une seule console AWS. »

Peter Goodman, Director Site Reliability Engineering - Pushpay

SendGrid

SendGrid

SendGrid est un fournisseur de messagerie électronique sur le cloud. L'entreprise envoie plus de 40 milliards d'e-mails chaque mois, pour plus de 69 000 clients payants. SendGrid a adopté Amazon CloudWatch au début de sa migration vers AWS afin d'obtenir une visibilité du système, des informations opérationnelles et une optimisation des ressources.

« CloudWatch nous permet de collecter des métriques issues de services AWS tels que Amazon EC2, Amazon Kinesis, Amazon DynamoDB et Amazon API Gateway, ainsi que des journaux provenant des fonctions AWS Lambda. Nous avons apprécié la capacité d'intégration native, sans qu'une pile autogérée ou qu'un fournisseur SaaS tiers soit nécessaire. Cela nous a aidés à démarrer très rapidement avec les alertes, la scalabilité automatique et la planification des capacités. Pouvoir traiter nos principaux cas d'utilisation rapidement et facilement a fait de CloudWatch notre solution de préférence. »

Joshua Barratt, Architect II - SendGrid

Se familiariser avec l'observabilité

Participez à l'atelier interactif et immersif One Observability et familiarisez-vous avec Amazon CloudWatch et AWS X-Ray. Au cours de cet atelier, vous allez déployer une application de microservices complexe et mettre en place le suivi et l'observabilité dans un environnement moderne. À la fin de l'atelier, vous aurez une compréhension claire de la journalisation, des métriques, de la surveillance des conteneurs et des systèmes sans serveur ainsi que des techniques de traçage.

Commencer l'atelier 
Nouveautés
Date (de la plus récente à la plus ancienne)
  • Date (de la plus récente à la plus ancienne)
1
Aucun résultat trouvé.
Blog
Date
  • Date
1
Aucun blog trouvé correspondant à ces critères.

Découvrir d'autres cas d'utilisation relatifs à la gestion et la gouvernance dans AWS

Page-Illo_AWS-Management-Governance_Open and Custom Resource Provisioning
Mise en service et orchestration »

Créer, mettre en service et partager des ressources

Page-Illo_AWS-Management-Governance_Automated Configuration Compliance and Auditing
Configuration, conformité et audit »

Auditer et corriger vos configurations de ressource

Page-Illo_AWS-Management-Governance_Centralized and Automated Operations Management
Gestion centralisée des opérations »

Gérer vos opérations dans le cloud

Page-Illo_AWS-Management-Governance_Governance at Scale
Gouvernance et contrôle de l'entreprise »

Mettre en place un environnement AWS sécurisé, multicompte et géré de façon centralisée