Comment effectuer l'analyse de la cause racine du basculement multi-AZ et du redémarrage de mon instance Amazon RDS ?

Date de la dernière mise à jour : 29/09/2021

Je souhaite connaître la cause racine du basculement multi-AZ et du redémarrage de mon instance Amazon Relational Database Service (Amazon RDS).

Brève description

Lorsque vous utilisez un déploiement multi-AZ pour votre instance de base de données, Amazon RDS crée une instance de base de données principale dans une zone de disponibilité associée à un sous-réseau. Puis, RDS crée dans une autre zone de disponibilité une instance de base de données de secours qui est associée à un sous-réseau différent. Pour plus d'informations, consultez Haute disponibilité (multi-AZ) pour Amazon RDS.

Pour les déploiements multi-AZ, Amazon RDS assure une détection et une récupération automatiques dans la plupart des scénarios de défaillance courants, afin que vous puissiez reprendre les opérations de base de données aussi rapidement que possible et sans intervention d'un administrateur. Si vous avez activé la configuration multi-AZ pour votre instance de base de données, Amazon RDS bascule automatiquement vers une réplique de secours dans une autre zone de disponibilité en cas d'interruption planifiée ou non de votre instance de base de données. Amazon RDS procède automatiquement au basculement dès lors qu'un des évènements suivants se produit :

  • Perte de disponibilité dans la zone de disponibilité principale
  • Perte de connectivité réseau avec le serveur principal
  • Échec d'unité de calcul sur le serveur principal
  • Échec de stockage sur le serveur principal

Résolution

Vérifier les journaux et les métriques

Vérifiez les points suivants pour identifier la cause racine de la panne :

Évènements : pour identifier la cause racine d'une panne non planifiée dans votre instance, consultez tous les évènements Amazon RDS au cours des dernières 24 heures. Tous les évènements sont enregistrés à l'heure UTC/GMT par défaut. Pour stocker les évènements plus longtemps, envoyez les évènements Amazon RDS à Amazon CloudWatch Events. Pour plus d'informations, consultez Création d'une règle qui se déclenche sur un évènement Amazon RDS.

Métriques CloudWatch : affichez les métriques CloudWatch de votre instance Amazon RDS pour vérifier si le problème de chargement de la base de données est à l'origine de la panne. Pour plus d'informations, consultez Affichage des métriques et dimensions Amazon RDS.

Consultez les métriques suivantes et vérifiez s'il y a limitation :

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • ReadIOPS
  • WriteIOPS
  • ReadLatency
  • WriteLatency
  • DiskQueueDepth

Surveillance améliorée : Amazon RDS fournit des métriques issues de la surveillance améliorée dans votre compte Amazon CloudWatch Logs. Vous bénéficiez ainsi de métriques en temps réel pour le système d'exploitation (SE) sur lequel votre instance de base de données est exécutée. Vous pouvez afficher toutes les métriques système et informations de processus de vos instances de base de données sur la console.

Vous pouvez définir la granularité de la fonction de surveillance améliorée sur 1, 5, 10, 15, 30 ou 60.

Pour activer la surveillance améliorée pour votre instance Amazon RDS, consultez Configuration et activation de la surveillance améliorée.

Performance Insights : avec le tableau de bord Performance Insights, vous pouvez visualiser la charge de la base de données et filtrer la charge par temps d'attente, instructions SQL, hôtes ou utilisateurs. Le tableau de bord contient des informations relatives aux performances de la base de données qui peuvent vous aider à analyser et à résoudre les problèmes de performances. Après avoir activé la fonction Performance Insights pour votre instance de base de données, vous pouvez afficher les informations concernant la charge de la base de données sur la page principale du tableau de bord.

Pour afficher le tableau de bord Performance Insights de votre instance, procédez comme suit :

  1. Ouvrez la console Amazon RDS.
  2. Dans le panneau de navigation, sélectionnez Performance Insights.
  3. Sur la page Performance Insights, sélectionnez votre instance de base de données.
    Vous pouvez afficher le tableau de bord Performance Insights de cette instance de base de données.

Si vous avez activé Performance Insights pour votre instance, vous pouvez également afficher le tableau de bord en choisissant l'élément Sessions dans la liste des instances de base de données.

Pour plus d'informations, consultez Ouverture du tableau de bord Performance Insights.

Journaux et évènements : pour résoudre la cause de la panne de votre instance de base de données Amazon RDS for Oracle, consultez les journaux d'alerte situés dans l'onglet Logs & Events (Journaux et évènements) de votre instance.

Identifier les causes de la panne

Les raisons de basculement les plus courantes dans le journal des évènements dans un environnement multi-AZ sont les suivantes :

  • L'hôte principal de l'instance multi-AZ RDS n'est pas sain : cette raison indique un problème de matériel sous-jacent transitoire qui a entraîné la perte de communication avec l'instance principale. Ce problème a peut-être rendu l'instance défectueuse, car le système de surveillance RDS n'a pas pu communiquer avec l'instance RDS pour effectuer les surveillances de l'état.
  • L'hôte principal de l'instance RDS Multi-AZ est inaccessible en raison d'une perte de connectivité réseau : cette raison indique que le basculement multi-AZ a été causé par un problème de réseau transitoire qui a affecté l'hôte principal de votre déploiement multi-AZ. Le système de surveillance interne a détecté ce problème et a lancé un basculement de manière proactive.
  • L'instance principale RDS multi-AZ est occupée et ne répond pas, L'activation de l'instance multi-AZ a démarré ou L'activation de l'instance multi-AZ est terminée : le journal des évènements affiche ces messages dans les cas suivants :
    • L'instance de base de données principale ne répond pas.
    • Une crise de mémoire dans la base de données a empêché le système de surveillance RDS de contacter l'hôte sous-jacent.
    • L'instance de base de données a rencontré des problèmes de réseau intermittent avec l'hôte sous-jacent.
    • L'instance a subi un chargement de base de données. Dans ce cas, vous remarquerez peut-être des pics des paramètres CPUUtilization et DatabaseConnections et un épuisement du paramètre Freeablememory.
      Remarque : pour éviter le basculement et le redémarrage de vos instances RDS en raison d'une surcharge de base de données, configurez correctement les paramètres de mémoire sur l'instance de base de données.
  • Le volume de stockage sous-jacent à l'hôte principal de l'instance multi-AZ RDS a connu une défaillance : ce message indique que le matériel de stockage sous-jacent a rencontré un problème qui a fait augmenter la latence du volume Amazon Elastic Block Store (Amazon EBS). L'hôte principal a détecté une dégradation des performances et est entré à l'état d'échec. Par mesure proactive, le système de surveillance a lancé un basculement vers l'hôte secondaire.
  • L'instance RDS a été modifiée par le client : ce message indique que le basculement a été lancé consécutivement à une modification d'instance RDS.
  • L'utilisateur a demandé un basculement de l'instance de base de données : ce message indique que vous avez redémarré l'instance et choisi « Redémarrer avec basculement ».

Pour plus d'informations, consultez le processus de basculement pour Amazon RDS.

Remarque : pour être averti en cas de basculement sur votre instance RDS, abonnez-vous aux notifications d'évènements Amazon RDS. Pour plus d'informations, consultez Comment créer un abonnement à un évènement Amazon RDS ?


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?