다중 AZ 장애 조치에 대한 근본 원인 분석을 수행하고 Amazon RDS 인스턴스를 다시 시작하려면 어떻게 해야 합니까?

최종 업데이트 날짜: 2021년 9월 29일

Amazon Relational Database Service(Amazon RDS) 인스턴스의 다중 AZ 장애 조치 및 재시작의 근본 원인을 알고 싶습니다.

간략한 설명

데이터베이스 인스턴스에 대해 다중 AZ 배포를 사용할 경우 Amazon RDS는 서브넷에 연결된 가용 영역 하나에 기본 DB 인스턴스를 생성합니다. 그런 다음, RDS는 다른 서브넷에 연결된 다른 가용 영역에 예비 DB 인스턴스를 생성합니다. 자세한 내용은 Amazon RDS용 고가용성(다중 AZ)을 참조하세요.

Amazon RDS는 다중 AZ 배포에 대한 가장 빈번한 오류를 감지해 자동으로 복구하므로 관리자의 개입 없이 데이터베이스 작업을 최대한 빨리 재개할 수 있습니다. 데이터베이스 인스턴스에 다중 AZ 구성을 활성화한 경우, 사전 계획되었거나 또는 예상치 못한 DB 인스턴스 중단이 발생할 시, Amazon RDS가 다른 가용 영역에 있는 예비 복제본으로 자동 전환합니다. Amazon RDS는 다음과 같은 이벤트가 발생하는 경우 장애 조치를 자동으로 수행합니다.

  • 기본 가용 영역의 가용성 손실
  • 기본 복제본에 대한 네트워크 연결 상실
  • 기본 복제본의 컴퓨팅 장치 장애
  • 기본 복제본의 스토리지 장애

해결 방법

로그 및 지표 확인

다음을 확인하여 중단의 근본 원인을 확인하십시오.

이벤트: 인스턴스에서 예상치 못한 중단의 근본 원인을 식별하려면 지난 24시간 동안의 모든 Amazon RDS 이벤트를 확인합니다. 모든 이벤트는 기본적으로 UTC/GMT 시간으로 등록됩니다. 이벤트를 더 오래 저장하려면 Amazon RDS 이벤트를 Amazon CloudWatch Events로 전송합니다. 자세한 내용은 Amazon RDS 이벤트에서 트리거되는 규칙 생성 단원을 참조하십시오.

CloudWatch 지표: Amazon RDS 인스턴스에 대한 CloudWatch 지표를 보고 데이터베이스 로드 문제로 인해 중단이 발생했는지 확인합니다. 자세한 내용은 Amazon RDS 지표 및 차원 보기 단원을 참조하십시오.

다음 지표를 보고 제한(throttling) 현상이 있는지 확인합니다.

  • DatabaseConnections
  • CPUUtilization
  • FreeableMemory
  • ReadIOPS
  • WriteIOPS
  • ReadLatency
  • Write Latency
  • DiskQueueDepth

Enhanced Monitoring: Amazon RDS는 Enhanced Monitoring의 지표를 사용자의 Amazon CloudWatch Logs 계정으로 전달합니다. 이는 DB 인스턴스가 실행되는 운영 체제(OS)에 대한 실시간 지표를 제공합니다. 콘솔에서는 DB 인스턴스에 대한 모든 시스템 지표와 프로세스 정보를 볼 수 있습니다.

고급 모니터링 기능의 세부 수준을 1, 5, 10, 15, 30 또는 60으로 설정할 수 있습니다.

Amazon RDS 인스턴스에 대해 Enhanced Monitoring을 켜려면 Enhanced Monitoring 설정 및 활성화 단원을 참조하십시오.

성능 개선 도우미: RDS 성능 개선 도우미 대시보드를 사용하는 경우 데이터베이스 로드를 시각화하고 대기, SQL 문, 호스트 또는 사용자별로 로드를 필터링할 수 있습니다. 해당 대시보드에는 성능 문제를 분석하고 해결하는 데 도움이 되는 데이터베이스 성능과 관련된 정보가 포함되어 있습니다. DB 인스턴스에 대한 성능 개선 도우미 기능을 활성화한 후에는, 기본 대시보드 페이지에서 데이터베이스 로드에 대한 정보를 볼 수 있습니다.

인스턴스에 대한 성능 개선 도우미 대시보드를 보려면 다음을 수행합니다.

  1. Amazon RDS 콘솔을 엽니다.
  2. 탐색 창에서 성능 개선 도우미를 선택합니다.
  3. 성능 개선 도우미 페이지에서 DB 인스턴스를 선택합니다.
    이 DB 인스턴스에 대한 성능 개선 도우미 대시보드를 볼 수 있습니다.

인스턴스에 대해 성능 개선 도우미를 활성화한 경우 DB 인스턴스 목록에서 세션 항목을 선택하여 대시보드를 볼 수도 있습니다.

자세한 내용은 성능 개선 도우미 대시보드 열기를 참조하세요.

로그 및 이벤트: Amazon RDS for Oracle DB 인스턴스의 중단 원인을 해결하려면 인스턴스의 로그 및 이벤트 탭에 있는 알림 로그를 확인하십시오.

중단 원인 파악

다중 AZ 환경의 이벤트 로그에서 가장 일반적인 장애 조치 이유는 다음과 같습니다.

  • RDS 다중 AZ 인스턴스의 기본 호스트가 비정상입니다. 이 이유는 기본 인스턴스와의 통신이 끊어지는 일시적인 기본 하드웨어 문제를 나타냅니다. RDS 모니터링 시스템이 상태 확인을 수행하기 위해 RDS 인스턴스와 통신할 수 없기 때문에 이 문제로 인해 인스턴스가 비정상적일 수 있습니다.
  • 네트워크 연결 손실로 인해 RDS 다중 AZ 인스턴스의 기본 호스트에 연결할 수 없습니다. 이 이유는 다중 AZ 배포의 기본 호스트에 영향을 주는 일시적인 네트워크 문제로 인해 다중 AZ 장애 조치가 발생했음을 나타냅니다. 내부 모니터링 시스템에서 이 문제를 감지하고 사전 예방 차원에서 장애 조치를 시작했습니다.
  • RDS 다중 AZ 기본 인스턴스가 사용 중이며 응답하지 않음, 다중 AZ 인스턴스 활성화가 시작됨, 또는 다중 AZ 인스턴스 활성화가 완료되었습니다. 다음과 같은 상황에서 이벤트 로그에 다음 메시지가 표시됩니다.
    • 기본 DB 인스턴스가 응답하지 않습니다.
    • 데이터베이스의 메모리 크런치로 인해 RDS 모니터링 시스템이 기본 호스트에 연결하지 못했습니다.
    • DB 인스턴스에서 기본 호스트에서 간헐적인 네트워크 문제가 발생했습니다.
    • 인스턴스가 데이터베이스 로드를 경험했습니다. 이 경우 CPUUtilization과 DatabaseConnections이 급증하고 Freeablemory가 고갈될 수 있습니다.
      참고: 데이터베이스 과부하로 인한 RDS 인스턴스의 장애 조치 및 재시작을 방지하려면 데이터베이스 인스턴스에서 메모리 파라미터를 적절히 구성하십시오.
  • RDS 다중 AZ 인스턴스의 기본 호스트의 기본 스토리지 볼륨에 장애가 발생했습니다. 이 메시지는 기본 스토리지 하드웨어에 문제가 발생하여 Amazon Elastic Block Store(Amazon EBS) 볼륨의 대기 시간이 증가했음을 나타냅니다. 기본 호스트가 성능 저하를 감지하여 장애 상태로 전환되었습니다. 사전 예방적 조치로서 모니터링 시스템은 보조 시스템으로의 장애 조치를 시작했습니다.
  • 고객이 RDS 인스턴스를 수정함: 이 메시지는 RDS 인스턴스 수정으로 장애 조치가 시작되었음을 나타냅니다.
  • 사용자가 DB 인스턴스의 장애 조치를 요청했습니다. 이 메시지는 인스턴스를 재부팅하고 장애 조치로 재부팅을 선택했음을 나타냅니다.

자세한 내용은 Amazon RDS에 대한 장애 조치 프로세스를 참조하십시오.

참고: RDS 인스턴스에 장애 조치가 발생할 때마다 알림을 받으려면 Amazon RDS 이벤트 알림을 구독하십시오. 자세한 내용은 Amazon RDS 이벤트 구독 생성 방법을 참조하십시오.


이 문서가 도움이 되었나요?


결제 또는 기술 지원이 필요하세요?