Pourquoi mon cluster Amazon Redshift a-t-il redémarré en dehors de la fenêtre de maintenance ?

Date de la dernière mise à jour : 19/08/2020

Mon cluster Amazon Redshift a redémarré en dehors de la fenêtre de maintenance. Pourquoi mon cluster a-t-il redémarré ?

Brève description

Un cluster Amazon Redshift est redémarré en dehors de la fenêtre de maintenance pour les raisons suivantes :

  • Un problème lié à votre cluster Amazon Redshift a été détecté.
  • Un nœud défectueux dans le cluster a été remplacé.

Pour être informé des redémarrages de cluster en dehors de votre fenêtre de maintenance, créez une notification d'événement pour votre cluster Amazon Redshift.

Solution

Un problème lié à votre cluster Amazon Redshift a été détecté

Voici quelques problèmes courants qui peuvent déclencher un redémarrage de cluster :

  • Manque de mémoire (OOM) sur le nœud principal : lorsqu'une requête est exécutée sur un cluster qui est mis à niveau vers une version plus récente, cela peut provoquer une exception OOM, déclenchant un redémarrage de cluster. Pour résoudre ce problème, rétablissez le correctif ou le correctif ayant échoué.
  • Erreur OOM résultant d'une ancienne version de pilote : si vous travaillez sur une ancienne version de pilote et que votre cluster connaît des redémarrages fréquents, téléchargez la dernière version du pilote JDBC. Notez que vous devez tester la version du pilote dans votre environnement de développement avant de l'utiliser en production.

Un nœud défectueux dans le cluster Amazon Redshift a été remplacé

Chaque nœud Amazon Redshift s'exécute sur une instance Amazon Elastic Compute Cloud (Amazon EC2) distincte. Un nœud défaillant est une instance qui ne répond pas aux signaux de pulsation envoyés au cours du processus de surveillance. Les signaux de pulsation surveillent régulièrement la disponibilité des nœuds de calcul dans votre cluster Amazon Redshift.

Ces vérifications d'état automatiques tentent de récupérer le cluster Amazon Redshift lorsqu'un problème est détecté. Lorsque Amazon Redshift détecte des problèmes matériels ou des dysfonctionnements, les nœuds sont automatiquement remplacés dans la fenêtre de maintenance suivante. Notez que dans certains cas, les nœuds défectueux doivent être remplacés immédiatement pour assurer le bon fonctionnement de votre cluster.

Voici quelques-unes des causes courantes de la défaillance des nœuds d’un cluster :

  • Dysfonctionnement de l'instance EC2 : lorsque le matériel sous-jacent d'une instance EC2 est détecté comme étant défectueux, le nœud défectueux est remplacé pour restaurer les performances du cluster. EC2 identifie le matériel sous-jacent comme étant défectueux en cas d'absence de réponse ou d'échec des vérifications d'état automatiques.
  • Remplacement de nœud en raison d'un disque défectueux d'un nœud : lorsqu'un problème est détecté sur le disque d'un nœud, Amazon Redshift remplace le disque ou redémarre le nœud. Si le cluster Amazon Redshift ne parvient pas à rétablir la situation, le nœud est remplacé ou doit être remplacé.
  • Erreur de communication entre les nœuds : en cas d'erreur de communication entre les nœuds, les messages de contrôle ne sont pas reçus par un nœud donné à l'heure spécifiée. Les erreurs de communication entre les nœuds sont provoqués par un problème de connexion réseau intermittent ou un problème lié à l'hôte sous-jacent.
  • Délai d'expiration de la découverte : un remplacement automatique de nœud est déclenché si un nœud ou un cluster ne peut pas être atteint dans le délai spécifié.
  • Exception Manque de mémoire (OOM) : une charge importante sur un nœud peut provoquer des problèmes OOM, déclenchant le remplacement d'un nœud.

Création de notifications d'événement Amazon Redshift

Pour identifier la cause du redémarrage de votre cluster, créez une notification d'événement Amazon Redshift aux redémarrages de cluster. Les notifications d'événement vous indiquent également si la source a été configurée.