Pourquoi mon instance Linux EC2 est-elle inaccessible et une ou les deux vérifications de son statut échouent-elles ?

Date de la dernière mise à jour : 02/06/2020

Mon instance Linux Amazon Elastic Compute Cloud (Amazon EC2) est inaccessible et une ou les deux vérifications de son statut échouent. Comment résoudre l'échec de la vérification du statut ?

Brève description

Amazon EC2 surveille l'état de chaque instance EC2 via deux vérifications de statut :

Vérification du statut du système : la vérification du statut du système détecte les problèmes liés à l'hôte sous-jacent sur lequel votre instance s'exécute. Si l'hôte sous-jacent ne répond pas ou est inaccessible en raison de problèmes réseau, matériels ou logiciels, cette vérification de statut échoue.

Vérification du statut de l'instance : l'échec de la vérification du statut de l'instance indique un problème avec l'instance en raison d'erreurs au niveau du système d'exploitation telles que les suivantes :

  • Échec du démarrage du système d'exploitation
  • Échec du montage correct des volumes
  • Problèmes liés au système de fichiers
  • Pilotes non compatibles
  • Alerte du noyau

Les vérifications du statut de l'instance peuvent également échouer en raison de contraintes strictes de mémoire dues à une sur-utilisation des ressources d'instance.

Résolution

Affichez les métriques de vérification du statut de votre instance pour déterminer si la vérification du statut du système ou de l'instance a échoué.

Si la vérification du statut du système a échoué, consultez la section La vérification du statut du système a échoué pour mon instance. Comment puis-je résoudre ce problème ?

Si la vérification du statut de l'instance a échoué, cela peut être dû à des problèmes au niveau du système d'exploitation qui génèrent des erreurs de démarrage ou une sur-utilisation des ressources de l'instance. Vérifiez si les journaux système de l'instance comporte des erreurs. Voici des erreurs courantes que vous pouvez rencontrer dans les journaux système :

Erreurs de démarrage

Si les journaux système contiennent des erreurs de démarrage, consultez la section La vérification du statut de mon instance EC2 Linux a échoué en raison de problèmes liés au système d'exploitation. Comment puis-je résoudre ce problème ?

Erreurs de mémoire exhaustive ou de disque plein

Si les journaux système contiennent des erreurs de mémoire exhaustive ou de disque plein, l'instance peut être entrée en mode d'urgence, car le périphérique racine est plein. Pour connaître la procédure permettant de résoudre ce problème, consultez la section La vérification du statut de mon instance EC2 Linux a échoué en raison d'une sur-utilisation de ses ressources. Comment puis-je résoudre ce problème ?

Pic d'utilisation du CPU

Si les journaux système ne contiennent pas d'erreurs de disque plein, consultez la métrique CPUUtilization pour votre instance. Si la métrique CPUUtilization est égale ou proche de 100 %, l'instance peut ne pas avoir suffisamment de capacité de calcul pour l'exécution du noyau.

Pour les instances T2 ou T3, consultez les métriques relatives aux crédits CPU dans le tableau des métriques CloudWatch afin de déterminer si les crédits CPU sont égaux ou proches de zéro. Si les crédits CPU sont à zéro, la métrique CPUUtilization affiche un plateau de saturation aux performances de base de l'instance. Les performances de base peuvent être de 20 %, 40 %, et ainsi de suite, en fonction du type d'instance.

Les métriques CloudWatch indiquant une utilisation du CPU égale ou proche de 100 %, ou sur un plateau de saturation pour les instances T2 ou T3, indiquent que la vérification du statut a échoué en raison d'une sur-utilisation des ressources de l'instance. Pour connaître la procédure permettant de résoudre ce problème, consultez la section La vérification du statut de mon instance EC2 Linux a échoué en raison d'une sur-utilisation de ses ressources. Comment puis-je résoudre ce problème ?

Erreurs de périphérique en mode bloc, bogues logiciels ou autres erreurs de mémoire

Avertissement : avant d'arrêter et de démarrer votre instance, assurez-vous de bien comprendre les informations suivantes :

  • Les données de stockage d'instance sont perdues lorsque vous arrêtez et démarrez une instance. Les données sont perdues lorsque vous arrêtez l'instance si votre instance est basée sur le stockage d'instance ou dispose de volumes de stockage d'instance contenant des données. Pour plus d'informations, consultez la section Identification du type de dispositif racine de votre instance.
  • L'arrêt de l'instance peut mettre fin à l'instance si votre instance fait partie d'un groupe Auto Scaling d'Amazon EC2. Votre instance peut faire partie d'un groupe Auto Scaling d'AWS si vous l'avez lancée avec Amazon EMR, AWS CloudFormation ou AWS Elastic Beanstalk. Dans ce cas, la mise hors service dépend des paramètres de protection des instances définis pour votre groupe Auto Scaling. Si votre instance fait partie d'un groupe Auto Scaling, supprimez-la temporairement du groupe avant d'exécuter les étapes de résolution.
  • L'arrêt et le redémarrage de l'instance entraînent la modification de son adresse IP publique. Il est recommandé d'utiliser une adresse IP Elastic, et non publique pour l'acheminement du trafic externe vers votre instance. Si vous utilisez Route 53, il peut être nécessaire de mettre à jour les enregistrements DNS Route 53 lorsque l'adresse IP publique change.
  • L'instance est mise hors service lorsqu'elle est arrêtée si le comportement d'arrêt de l'instance est Mettre hors service. Vous pouvez modifier le comportement d'arrêt de l'instance pour éviter cela.

Les erreurs de périphérique en mode bloc, les bogues logiciels ou les problèmes système inhabituels peuvent entraîner un pic d'utilisation inhabituel du CPU. Si la métrique CPUUtilization est à 100 % et que les journaux système contiennent des erreurs liées à des périphériques en mode bloc, des problèmes de mémoire ou d'autres erreurs système inhabituelles, redémarrez l'instance, ou arrêtez-la et démarrez-la.