AWS 기술 블로그
AWS 기반 재해 복구(DR) 아키텍처, 1부: 클라우드에서의 재해 복구 전략
이 글은 AWS Architecture Blog에 게시된 Disaster Recovery (DR) Architecture on AWS, Part I: Strategies for Recovery in the Cloud을 한국어로 번역 및 편집하였습니다.
필자는 AWS Well-Architected 신뢰성 원칙의 수석 솔루션 설계자로서 고객이 AWS에서 복원력이 있는 워크로드를 구축하도록 돕고 있습니다. 고객이 직면할 수 있는 가장 큰 도전 중 하나인 재해 상황에 대비하는 데 도움이 됩니다. 이러한 재해 상황은 지진이나 홍수와 같은 자연 재해, 전원 또는 네트워크 손실과 같은 기술적 오류, 우발적이거나 승인되지 않은 수정과 같은 인간의 행동을 포함합니다. 궁극적으로 워크로드 또는 시스템이 기본 위치에서 비즈니스 목표를 달성하지 못하게 하는 모든 이벤트는 재해로 분류됩니다. 이 블로그 게시물은 재해에 대비하고 재해로부터 복구하는 프로세스인 재해 복구(DR)를 설계하는 방법을 보여줍니다. 재해 복구는 비즈니스 연속성 계획의 중요한 부분입니다.
재해 복구 목표
재해 상황은 잠재적으로 워크로드를 중단시킬 수 있으므로 재해 복구의 목표는 워크로드를 복구하거나 다운타임을 완전히 방지하는 것입니다. 재해 복구 목표는 다음과 같습니다.
- RTO (Recovery Time Objective): 서비스 중단과 서비스 복원 사이의 최대로 허용 되는 지연시간 입니다. 이에 따라 서비스 다운타임의 허용 가능한 기간이 결정됩니다.
- RPO(Recovery Point Objective): 마지막 데이터 복구 가능한 시점 이후에 장애시 데이터 손실을 허용 할수 있는 최대 시간입니다. 허용 가능한 데이터 손실을 결정 합니다.

[그림 1 : 재해 복구 목표 : RTO 및 RPO]
재해 상황의 영향 범위와 대응 전략
다중 가용영역(AZ) 전략
모든 AWS 리전(Region)은 여러개의 가용 영역(AZ – Availability Zone)으로 구성됩니다. 각 가용영역(AZ)은, 각각 독립된 지리적 위치의 하나 이상의 데이터 센터로 구성됩니다. 이러한 구성은 하나의 장애 원인이 두개 이상의 가용영역(AZ)에 영향을 미칠 위험을 크게 줄일수 있습니다. 따라서 정전, 홍수 및 기타 국지적 문제로 인한 재해 상황을 고려하여 재해 복구 전략을 설계하는 경우, AWS 리전 내에서 다중 가용역역(AZ) 전략을 사용하면 필요한 서비스 가용성을 확보하고 데이터 보호를 보호할 수 있습니다.
다중 리전(Region) 전략
AWS는 워크로드에 대한 다중 리전(Region) 전략을 제공합니다. 이는 넓은 지역의 여러 데이터 센터에 영향을 미칠 수 있는 광범위한 재해 상황을 극복할수 있어, 비지니스의 높은 가용성을 제공합니다. 이 블로그는 대부분 다중 리전(Region) 접근 방식을 사용하는 재해 복구 전략을 제시합니다. 물론 다중 가용영역(AZ) 전략 또는 하이브리드(온프레미스 워크로드/클라우드 복구) 전략도 같이 제시 합니다.
재해 복구 전략
AWS는 재해 복구와 관련된 비즈니스 요구사항을 충족하기 위해 필요한 리소스와 서비스를 제공합니다.

[그림 2 : 재해 복구 전략 : RTO/RPO와 비용 균형]
최선의 전략을 선택하려면 IT엔지니어와 비지니스 워크로드 담장자가 함께 서비스에 영향을 줄수 있는 위험을 분석해야 합니다. 분석 과정을 통하여 비지니스 워크로드에 필요한 RTO 및 RPO와 비용, 시간 및 노력에 대한 투자를 결정합니다.
액티브/패시브와 액티브/액티브 전략

[그림 3 : 액티브/패시브 재해 복구]

[그림 4 : 액티브/액티브 재해 복구]
재해 복구 전략의 아키텍처
각 재해 복구 전략은 향후 블로그 게시물에서 자세히 설명할 예정이며, 이 블로그에서는 네개의 전략을 대해 간략히 소개합니다.
백업 및 복구

[그림 5 : 백업 및 복원 재해 복구 아키텍처]
백업 및 복구 전략은 다른 전략대비 RTO가 가장 높아, 복구에 많은 시간이 소요 됩니다. 이를 보완하기 위해 Amazon EventBridge와 같은 AWS 리소스를 사용하여 재해 상황의 감지 및 복구 시나리오를 개선하여, 복구 시간을 줄이고 자동화할수 있습니다. 이부분에 대해서는 향후 블로그 게시물에서 자세히 살펴보겠습니다.
파일럿 라이트

[그림 6 : 파일럿 라이트 재해 복구 아키텍처]
파일럿 라이트 전략에서는 [그림 6]의 Elastic Load Balancing 및 Amazon EC2 Auto Scaling과 같은 기본 인프라 요소가 있습니다. 하지만 컴퓨팅과 같은 기능적 요소는 “차단”된 상태가 됩니다. 클라우드에서 Amazon EC2 인스턴스를 차단하는 가장 좋은 방법은 배포하지 않는 것입니다. [그림 6]은 배포된 인스턴스가 0개임을 보여줍니다. 이러한 인스턴스를 “동작” 시키기 위해 이전에 구축되어 모든 리전에 복사된 Amazon 머신 이미지(AMI)를 사용합니다. AMI는 동작에 필요한 운영 체제와 소프트웨어 패키지로 Amazon EC2 인스턴스를 생성합니다. 파일럿 라이트 전략은 장애 발생으로 모든 인프라를 생성 및 동작 시키기 전까지 어떤 요청도 처리할수 없습니다.
웜 스탠바이

[그림 7 : 웜 스탠바이 재해 복구 아키텍처]
다중 사이트 액티브/액티브

[그림 8 : 다중 사이트 액티브/액티브 재해 복구 아키텍처]
결론
재해 상황은 워크로드의 가용성을 위협하지만, AWS 클라우드 서비스를 사용하면 이러한 위협을 완화하거나 제거할 수 있습니다. 워크로드에 대한 비즈니스 요구 사항을 먼저 이해하면 적절한 재해 복구 전략을 선택할 수 있고, 이를 토대로AWS 서비스를 사용하여 비즈니스에 필요한 RTO/RPO 목표를 달성하는 아키텍처를 설계할 수 있습니다.
추가 자료
재해 복구 시리즈의 다른 블로그 글
- AWS 기반 재해 복구(DR) 아키텍처, 2부: 신속한 복구를 위한 백업 및 복원
- AWS 기반 재해 복구(DR) 아키텍처, 3부: 파일럿 라이트 및 웜 스탠바이
- AWS 기반 재해 복구(DR) 아키텍처, 4부: 액티브/액티브 멀티 사이트