Wie führe ich die Ursachenanalyse für einen Multi-AZ-Failover und Neustart meiner Amazon-RDS-Instance durch?

Letzte Aktualisierung: 29.09.2021

Ich möchte die Grundursache für das Multi-AZ-Failover und den Neustart meiner Amazon Relational Database Service (Amazon RDS)-Instance kennen.

Kurzbeschreibung

Wenn Sie die Multi-AZ-Bereitstellung für Ihre Datenbank-Instance verwenden, erstellt Amazon RDS eine primäre DB-Instance in einer Availability Zone, die einem Subnetz zugeordnet ist. Dann erstellt RDS eine Standby-DB-Instance in einer anderen Availability Zone, die einem anderen Subnetz zugeordnet ist. Weitere Informationen finden Sie unter Hochverfügbarkeit (Multi-AZ) für Amazon RDS.

Bei Multi-AZ-Bereitstellungen erfolgt bei den meisten gängigen Ausfallszenarien nach deren Erkennen eine automatische Wiederherstellung durch Amazon RDS, so dass Sie ohne Verwaltungsaufwand Datenbankvorgänge schnellstmöglich fortsetzen können. Wenn Sie die Multi-AZ-Konfiguration für Ihre Datenbank-Instance aktiviert haben, wechselt Amazon RDS bei einem geplanten oder ungeplanten Ausfall Ihrer DB-Instance automatisch zu einem Standby-Replikat in einer anderen Availability Zone. Amazon RDS führt in den folgenden Szenarien automatisch ein Failover durch:

  • Verlust der Verfügbarkeit in der primären Availability Zone
  • Verlust der Netzwerkverbindung zur Primär-Instance
  • Ausfall einer Datenverarbeitungseinheit in der Primär-Instance
  • Speicherfehler in der Primär-Instance

Auflösung

Überprüfen Sie Protokolle und Metriken

Überprüfen Sie Folgendes, um die Grundursache des Ausfalls zu ermitteln:

Ereignisse: Um die Grundursache eines ungeplanten Ausfalls in Ihrer Instance zu ermitteln, sehen Sie sich alle Amazon-RDS-Ereignisse der letzten 24 Stunden an. Alle Ereignisse werden standardmäßig in der UTC/GMT-Zeit registriert. Um Ereignisse länger zu speichern, senden Sie die Amazon-RDS-Ereignisse an Amazon CloudWatch Events. Weitere Informationen finden Sie unter Erstellen einer Regel, die bei einem Amazon-RDS-Ereignis ausgelöst wird.

CloudWatch-Metriken: Zeigen Sie die CloudWatch-Metriken für Ihre Amazon-RDS-Instance an, um zu überprüfen, ob das Problem beim Laden der Datenbank den Ausfall verursacht hat. Weitere Informationen finden Sie unter Anzeigen von Amazon-RDS-Metriken und -Dimensionen.

Zeigen Sie die folgenden Metriken an und prüfen Sie auf Drosselung:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • ReadIOPS
  • WriteIOPS
  • ReadLatency
  • Write Latency
  • DiskQueueDepth

Verbesserte Überwachung: Amazon RDS liefert Metriken von Enhanced Monitoring in Ihr Amazon-CloudWatch-Logs-Konto. Dies liefert Metriken in Echtzeit für das Betriebssystem (OS), auf dem Ihre DB-Instance läuft. Sie können in der Konsole alle Systemmetriken und Prozessinformationen zu Ihrer DB-Instance in einem grafischen Format anzeigen.

Sie können die Granularität für die erweiterte Überwachungsfunktion auf 1, 5, 10, 15, 30 oder 60 einstellen.

Informationen zum Aktivieren der erweiterten Überwachung für Ihre Amazon-RDS-Instance finden Sie unter Einrichten und Aktivieren von Enhanced Monitoring.

Performance Insights: Mit dem Performance-Insights-Dashboard können Sie die Datenbank-Last visualisieren und die Last nach Wartezeiten, SQL-Anweisungen, Hosts oder Benutzern filtern. Das Dashboard enthält Informationen zur Datenbankleistung, die Ihnen bei der Analyse und Behebung von Leistungsproblemen helfen können. Nachdem Sie die Performance-Insights-Funktion für Ihre DB-Instance aktiviert haben, können Sie Informationen zur Datenbank-Last auf der Haupt-Dashboard-Seite anzeigen.

Gehen Sie wie folgt vor, um das Performance-Insights-Dashboard für Ihre Instance anzuzeigen:

  1. Öffnen Sie die Amazon RDS-Konsole.
  2. Wählen Sie im Navigationsbereich Performance Insights.
  3. Wählen Sie auf der Seite Performance Insights Ihre DB-Instance aus.
    Sie können das Performance-Insights-Dashboard für diese DB-Instance anzeigen.

Wenn Sie Performance Insights für Ihre Instance aktiviert haben, können Sie das Dashboard auch anzeigen, indem Sie das Element Sessions (Sitzungen) in der Liste der DB-Instances auswählen.

Weitere Informationen finden Sie unter Öffnen des Performance-Insights-Dashboards.

Protokolle und Ereignisse: Um die Ursache des Ausfalls für Ihre Amazon-RDS-for-Oracle-DB-Instance zu beheben, sehen Sie sich die Warnprotokolle auf der Registerkarte Logs & Events (Protokolle und Ereignisse) Ihrer Instance an.

Identifizieren Sie die Ursachen für den Ausfall

Die häufigsten Failover-Gründe im Ereignisprotokoll in einer Multi-AZ-Umgebung sind die folgenden:

  • Der primäre Host der RDS-Multi-AZ-Instance ist ungesund: Dieser Grund weist auf ein vorübergehendes zugrunde liegendes Hardwareproblem hin, das zum Verlust der Kommunikation mit der primären Instance geführt hat. Dieses Problem könnte die Instance ungesund gemacht haben, da das RDS-Überwachungssystem nicht mit der RDS-Instance kommunizieren konnte, um die Zustandsprüfungen durchzuführen.
  • Der primäre Host der RDS-Multi-AZ-Instance ist aufgrund des Verlusts der Netzwerkkonnektivität nicht erreichbar: Dieser Grund weist darauf hin, dass das Multi-AZ-Failover durch ein vorübergehendes Netzwerkproblem verursacht wurde, das den primären Host Ihrer Multi-AZ-Bereitstellung beeinträchtigte. Das interne Überwachungssystem erkannte dieses Problem und leitete proaktiv ein Failover ein.
  • Die primäre RDS-Multi-AZ-Instance ist ausgelastet und reagiert nicht, Die Multi-AZ-Instanceaktivierung wurde gestartet oder Die Multi-AZ-Instanceaktivierung wurde abgeschlossen: Das Ereignisprotokoll zeigt diese Meldungen unter den folgenden Situationen an:
    • Die primäre DB-Instance reagiert nicht.
    • Eine Speicherkrise in der Datenbank verhinderte, dass das RDS-Überwachungssystem den zugrunde liegenden Host kontaktierte.
    • Bei der DB-Instance traten zeitweise Netzwerkprobleme mit dem zugrunde liegenden Host auf.
    • Die Instance erlebte eine Datenbank-Last. In diesem Fall bemerken Sie möglicherweise Spitzen bei der CPUUtilization und DatabaseConnections sowie eine Erschöpfung des freisetzbaren Speichers.
      Hinweis: Um ein Failover und einen Neustart Ihrer RDS-Instances aufgrund einer Datenbanküberlastung zu vermeiden, konfigurieren Sie die Speicherparameter auf der Datenbank-Instance entsprechend.
  • Das Speichervolumen, das dem primären Host der RDS-Multi-AZ-Instance zugrunde liegt, erlebte ein Fehler: Diese Meldung weist darauf hin, dass bei der zugrunde liegenden Speicherhardware ein Problem aufgetreten ist, das zu einer erhöhten Latenz des Amazon Elastic Block Store (Amazon EBS)-Volumes führte. Der primäre Host erkannte eine Leistungsverschlechterung und ging in einen ausgefallenen Zustand über. Als proaktive Maßnahme leitete das Überwachungssystem ein Failover auf sekundär ein.
  • Die RDS-Instance wurde vom Kunden geändert: Diese Meldung zeigt an, dass das Failover durch eine RDS-Instance-Änderung eingeleitet wurde.
  • Der Benutzer hat ein Failover der DB-Instance angefordert: Diese Meldung zeigt an, dass Sie die Instance neu gestartet und Neustart mit Failover gewählt haben.

Weitere Informationen finden Sie unter Failover-Prozess für Amazon RDS.

Hinweis: Um bei jedem Failover auf Ihrer RDS-Instance benachrichtigt zu werden, abonnieren Sie Amazon-RDS-Ereignisbenachrichtigungen abonnieren. Weitere Informationen finden Sie unter Wie erstelle ich ein Amazon-RDS-Event-Abonnement?


War dieser Artikel hilfreich?


Benötigen Sie Hilfe zur Fakturierung oder technischen Support?