¿Cómo hago el análisis de la causa raíz de una conmutación por error Multi-AZ y el reinicio de la instancia de Amazon RDS?

Última actualización: 29-09-2021

Quiero saber cuál es la causa principal de la conmutación por error Multi-AZ y el reinicio de mi instancia de Amazon Relational Database Service (Amazon RDS).

Descripción breve

Cuando utiliza la implementación Multi-AZ para la instancia de base de datos, Amazon RDS crea una instancia de base de datos primaria en una zona de disponibilidad asociada a una subred. A continuación, RDS crea una instancia de base de datos en espera en una zona de disponibilidad diferente asociada a una subred distinta. Para obtener más información, consulte Alta disponibilidad (Multi-AZ) para Amazon RDS.

Amazon RDS detecta las situaciones de error más comunes para implementaciones Multi-AZ y se recupera automáticamente, por lo que puede restablecer las operaciones de base de datos de la manera más rápida posible sin necesidad de intervención administrativa alguna. Si habilitó la configuración Multi-AZ para la instancia de base de datos, Amazon RDS cambia automáticamente a una réplica en espera de otra zona de disponibilidad en caso de que se produzca una interrupción planificada o no planificada de la instancia de base de datos. Amazon RDS hace automáticamente una conmutación por error en los siguientes casos:

  • Pérdida de disponibilidad en la zona de disponibilidad principal
  • Pérdida de conectividad de red con la instancia principal
  • Error de unidad informática en la instancia
  • Error de almacenamiento de instancia primaria

Resolución

Verificación de registros y métricas

Verifique lo siguiente para identificar la causa raíz de la interrupción:

Eventos: para identificar la causa raíz de una interrupción no planificada de la instancia, consulte todos los eventos de Amazon RDS de las últimas 24 horas. Todos los eventos se registran en la hora UTC/GMT de forma predeterminada. Para almacenar los eventos durante más tiempo, envíe los eventos de Amazon RDS a Amazon CloudWatch Events. Para obtener más información, consulte Creación de una regla que se desencadena en un evento de Amazon RDS.

Métricas de CloudWatch: consulte las métricas de CloudWatch de su instancia de Amazon RDS para verificar si el problema de carga de la base de datos provocó la interrupción. Para obtener más información, consulte Visualización de métricas y dimensiones de Amazon RDS.

Consulte las siguientes métricas y verifique si hay limitación controlada:

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • ReadIOPS
  • WriteIOPS
  • ReadLatency
  • WriteLatency
  • DiskQueueDepth

Monitoreo mejorado: Amazon RDS proporciona métricas del monitoreo mejorado en su cuenta de Amazon CloudWatch Logs. Esto proporciona métricas en tiempo real del sistema operativo (SO) en el que se ejecuta la instancia de base de datos. Puede ver todas las métricas del sistema y la información de procesos de sus instancias de base de datos en la consola.

Puede establecer la pormenorización de la característica de monitoreo mejorado en 1, 5, 10, 15, 30 o 60.

Para activar el monitoreo mejorado para la instancia de Amazon RDS, consulte Configuración y activación del monitoreo mejorado.

Información sobre rendimiento: con el panel Información sobre rendimiento, puede visualizar la carga de la base de datos y filtrar la carga por esperas, instrucciones SQL, alojamientos o usuarios. El panel contiene información relacionada con el rendimiento de la base de datos que puede ayudarlo a analizar y solucionar problemas de rendimiento. Después de activar la característica Información sobre rendimiento de la instancia de base de datos, podrá ver información sobre la carga de la base de datos en la página principal del panel.

Para ver el panel Información sobre rendimiento de la instancia, haga lo siguiente:

  1. Abra la consola de Amazon RDS.
  2. En el panel de navegación, elija Información sobre rendimiento.
  3. En la página Información sobre rendimiento, seleccione su instancia de base de datos.
    Puede ver el panel Información sobre rendimiento de esta instancia de base de datos.

Si activó Información sobre rendimiento para su instancia, también puede ver el panel al seleccionar el elemento Sessiones de la lista de instancias de base de datos.

Para obtener más información, consulte Abrir el panel Información sobre rendimiento.

Registros y eventos: para solucionar los problemas que provocan la interrupción de la instancia de base de datos de Amazon RDS for Oracle, consulte los registros de alertas que se encuentran en la pestaña Registros y eventos de la instancia.

Identificación de las causas de la interrupción

Los siguientes son los motivos de conmutación por error más comunes en el registro de eventos de un entorno Multi-AZ:

  • El alojamiento principal de la instancia Multi-AZ de RDS no está en buen estado: este motivo indica un problema de hardware subyacente transitorio que provocó la pérdida de comunicación con la instancia primaria. Este problema puede haber hecho que la instancia no esté en buen estado porque el sistema de monitoreo de RDS no se pudo comunicar con la instancia de RDS para hacer las comprobaciones de estado.
  • No se puede acceder al alojamiento primario de la instancia Multi-AZ de RDS debido a la pérdida de conectividad de red: este motivo indica que la conmutación por error Multi-AZ se debió a un problema de red transitorio que afectó al alojamiento principal de la implementación Multi-AZ. El sistema de monitoreo interno detectó este problema e inició de forma proactiva una conmutación por error.
  • La instancia primaria Multi-AZ de RDS está ocupada y no responde, Se inició la activación de la instancia Multi-AZ o Se completó la activación de la instancia Multi-AZ: el registro de eventos muestra estos mensajes en las siguientes situaciones:
    • La instancia de base de datos primaria no responde.
    • Una pérdida de memoria de la base de datos impedía que el sistema de monitoreo de RDS contactara con el alojamiento subyacente.
    • La instancia de base de datos experimentó problemas de red intermitentes con el alojamiento subyacente.
    • La instancia experimentó una carga de base de datos. En este caso, es posible que observe picos en CPUUtilization, DatabaseConnections y el agotamiento de Freeablememory.
      Nota: para evitar la conmutación por error y el reinicio de las instancias de RDS debido a la sobrecarga de la base de datos, configure los parámetros de memoria de la instancia de base de datos de forma adecuada.
  • El volumen de almacenamiento subyacente al alojamiento primario de la instancia Multi-AZ de RDS experimentó un error: este mensaje indica que el hardware de almacenamiento subyacente experimentó un problema que provocó una latencia elevada del volumen de Amazon Elastic Block Store (Amazon EBS). El alojamiento primario detectó una degradación del rendimiento y entró en un estado de error. Como medida proactiva, el sistema de monitoreo inició una conmutación por error a la instancia secundaria.
  • El cliente modificó la instancia de RDS: este mensaje indica que la conmutación por error se inició mediante una modificación de la instancia de RDS.
  • El usuario solicitó una conmutación por error de la instancia de base de datos: este mensaje indica que usted reinició la instancia y eligió Reiniciar con conmutación por error.

Para obtener más información, consulte Proceso de conmutación por error de Amazon RDS.

Nota: para recibir notificaciones cada vez que se produzca una conmutación por error en la instancia de RDS, suscríbase a las notificaciones de eventos de Amazon RDS. Para obtener más información, consulte ¿Cómo creo una suscripción a un evento de Amazon RDS?


¿Le resultó útil este artículo?


¿Necesita asistencia técnica o con la facturación?