Wie kann ich häufige Probleme beheben, die dazu führen, dass meine Lightsail-Instance nicht mehr reagiert?

Letzte Aktualisierung: 12.10.2021

Meine Amazon-Lightsail-Instance reagiert nicht. Was sind einige häufige Gründe dafür und wie behebe ich sie?

Kurzbeschreibung

Wenn Ihre Instance nicht reagiert, überprüfen Sie die Instance-Metriken für Statusprüfungen, um Schritte zur Fehlerbehebung zu ermitteln. Amazon Lightsail überwacht den Zustand jeder Instance mit zwei Statusprüfungen:

Systemstatusprüfung: Die Systemstatusprüfung erkennt Probleme mit dem zugrunde liegenden Host, auf dem Ihre Instance ausgeführt wird. Wenn der zugrunde liegende Host aufgrund von Netzwerk-, Hardware- oder Softwareproblemen nicht mehr reagiert oder nicht erreichbar ist, schlägt diese Statusprüfung fehl.

Instance-Statusprüfung: Ein Fehler bei der Instance-Statusprüfung weist auf ein Problem mit der Instance aufgrund von Fehlern auf Betriebssystemebene hin. Zu den Fehlern auf Betriebssystemebene gehören:

  • Fehler beim Booten des Betriebssystems.
  • Fehler beim korrekten Einhängen von Volumes.
  • Probleme mit dem Dateisystem.
  • Inkompatible Treiber.
  • Kernel-Panik.

Instance-Statusprüfungen können auch aufgrund einer Überauslastung von Ressourcen fehlschlagen. Im Folgenden sind drei der häufigsten Gründe aufgeführt, warum Ihr Gesundheitscheck aufgrund einer übermäßigen Auslastung von Ressourcen fehlschlagen kann:

  • Ihre Instance arbeitet möglicherweise in der Burstable-Zone, wenn sie stark belastet ist. Dies kann dazu führen, dass die Instance nicht mehr reagiert oder abstürzt.
  • Das Stammgerät ist zu 100% voll und die Instance blieb beim Booten hängen.
  • Die auf der Instance ausgeführten Prozesse verwendeten den gesamten Speicher und verhinderten, dass der Kernel ausgeführt wurde.

Auflösung

Zeigen Sie die Statusprüfungsmetriken Ihrer Instance an, um festzustellen, ob die Instance die Systemstatusprüfung oder die Instance-Statusprüfung nicht bestanden hat.

Fehler bei der Überprüfung des Systemstatus

Wenn die Überprüfung des Systemstatus fehlgeschlagen ist, muss die Instance auf einen neuen, fehlerfreien Host migriert werden, indem die Instance gestoppt und gestartet wird. Sie können die Instance manuell stoppen und starten, um sie auf einen neuen, gesunden Host zu migrieren.

Hinweis: Ein Stopp und Start entspricht nicht einem Neustart. Ein Start ist erforderlich, um die Instance auf fehlerfreie Hardware zu migrieren.

Warnung: Bevor Sie Ihre Instance anhalten und starten, sollten Sie sich bewusst sein, dass sich die öffentliche IP-Adresse der Instance bei jedem Stopp und Start der Instance ändert. Wenn Sie eine öffentliche IP wünschen, die sich nicht bei jedem Stopp und Start der Instance ändert, können Sie eine statische IP-Adresse anhängen.

Fehler bei der Überprüfung des Instance-Status

Wenn die Instance-Statusprüfung fehlgeschlagen ist, kann dies auf Probleme auf Betriebssystemebene zurückzuführen sein, die zu Startfehlern oder zu einer Überlastung der Ressourcen der Instance führen. Im Folgenden sind häufige Gründe für das Scheitern der Instance-Statusprüfung aufgeführt:

Hohe CPU-Auslastung

Zeigen Sie die CPU-Nutzungsmetrik der Instance an. Beachten Sie, ob die CPU-Auslastung über der nachhaltigen Zone liegt, was bedeutet, dass Ihre Instance in der Burstable-Zone arbeitet und stark belastet ist. Wenn dies der Fall ist, verwenden Sie die folgenden Optionen zur Fehlerbehebung:

  • Starten Sie Ihre Instance neu, um sie wieder in einen fehlerfreien Status zu versetzt.
    Hinweis: Wenn Ihre Instance-CPU-Anforderungen höher sind als die, die Ihr aktueller Instance-Plan bieten kann, tritt das Problem nach einem Neustart erneut auf.
  • Erwägen Sie, auf einen größeren Instance-Plan umzusteigen, der Ihre CPU-Anforderungen erfüllt

Erschöpfter Speicher

Wenn der Speicher erschöpft ist, hat der Kernel nicht genug Speicher zum Ausführen. In diesem Fall werden andere Prozesse angehalten, um Speicher freizugeben, wodurch die Instance nicht mehr reagiert. Sie können versuchen, die Instance neu zu starten oder stoppen und zu starten. Diese Verfahren reduzieren die Speichernutzung.

Festplatten-Fehler

Wenn auf dem Gerät kein Speicherplatz mehr vorhanden ist und das Dateisystem seine Kapazität erreicht hat, ist die Instance möglicherweise in den Notfallmodus gegangen, weil das Stammgerät voll ist. Um dies zu beheben, können Sie Ihren Lightsail-Plan oder Ihr Bündel auf einen mit einer größeren Volumengröße erhöhen.

Gehen Sie wie folgt vor, um Ihren Lightsail-Plan auf eine größere Instance zu aktualisieren:

1.    Erstellen Sie einen Snapshot Ihrer Instance.

2.    Erstellen Sie eine größere Instance aus dem Snapshot.

3.    Verbinden Sie sich nach dem Upgrade Ihres Lightsail-Plans mit Ihrer Instance.

4.    Führen Sie den Befehl lsblk aus, um das Festplattenlayout zu überprüfen. Obwohl der Speicherplatz zunimmt, kann es zu einem Mangel an freiem Speicherplatz kommen, der den automatischen Prozess verhindert, der die Ausführung der Partition und des Dateisystems erhöht. Wenn dies auftritt, geben Sie etwas Speicherplatz frei und erhöhen Sie die Partition manuell, gefolgt vom Dateisystem. Führen Sie dazu den folgenden Befehl aus:

Führen Sie den Befehl growpart aus, um die Größe der Stamm-Partition oder Partition 1 zu vergrößern:

$ sudo growpart /dev/xvda 1

Führen Sie den Befehl lsblk aus, um zu überprüfen, ob Partition 1 erweitert ist:

$ lsblk

Erweitern Sie das Dateisystem. Vergewissern Sie sich, dass das Dateisystem Ihrer Stamm-Partition „/“ ist und zwar mit dem folgenden Befehl:

$ lsblk -f

Im folgenden Beispiel wird ein EXT2/EXT3/EXT4-Dateisystem auf Partition 1 erweitert:

$ sudo resize2fs /dev/xvda1

Im folgenden Beispiel wird ein XFS-Dateisystem erweitert. In diesem Beispiel ist „/“ der Volumenbindungsbereitstellungspunkt.

$ sudo xfs_growfs -d /

Führen Sie nach dem Erweitern des Dateisystems den Befehl df -h aus, um zu überprüfen, ob das Betriebssystem den zusätzlichen Speicherplatz sehen kann:

$ df -h

Andere Probleme auf Betriebssystemebene

Andere Probleme sind Startprobleme, Kernel-Panik und Netzwerkfehler. Außerdem kann es zu Blockgerätefehlern, Softwarefehlern, festgefahrenen Aufgaben oder ungewöhnlichen Systemproblemen kommen. All dies kann zu einer nicht reagierenden Instance führen. Versuchen Sie, die Instance neu zu starten oder anzuhalten und zu starten. Wenn ein Neustart oder Stopp und Start das Problem nicht behebt, müssen Sie möglicherweise den Lightsail-Server zur weiteren Fehlerbehebung auf EC2 migrieren. Dies liegt daran, dass die Optionen zur Fehlerbehebung in Lightsail wie für einfachere Arbeitslasten eingeschränkt sind.


War dieser Artikel hilfreich?


Benötigen Sie Hilfe zur Fakturierung oder technischen Support?