AWS 기술 블로그
Well-Architected Framework Review(WAFR)를 수행하는 방법- 3부
이 글은 AWS Cloud Operations & Migrations Blog에 게시된 How to perform a Well-Architected Framework Review- Part 3 by Ebrahim (EB) Khiyami을 한국어로 번역 및 편집하였습니다.
이전 블로그 게시물에서는 WAFR(Well-Architected Framework Review)를 실행하기 위한 처음 두 단계에 대해 논의했습니다. 첫 번째는 준비(Prepare) 단계이고 두 번째는 검토(Review)를 수행하는 것입니다. 이 블로그에서는 세 번째인 개선(Improve) 단계에 대해 자세히 살펴보겠습니다.
그림 1 – Well-Architected Framework Review 단계
개선 단계란?
워크로드의 아키텍처를 AWS 모범 사례와 비교 검토하는 시점에서, 준비 단계에서 설명한 바와 같이 검토 단계에 필요한 준비를 완료하고, 검토 단계에서 안내한 권장 사항에 따라 실제로 검토가 완료 되었어야 합니다. 즉, 검토 중에 수집한 답변을 바탕으로 아키텍처의 위험 요소가 식별되어 있어야 합니다. 이렇게 식별된 위험(Risk)을 고위험 문제 (HRI) 및 중간 위험 문제 (MRI) 라고 부르며, 이에 대해서는 아래에서 자세히 설명하겠습니다. 개선 단계를 진행하는 동안, 개선 계획(혹은 치료 계획 – Treatment Plan)을 만들기 시작합니다. 개선 계획이란 HRI 및 MRI와 같은 위험 목록을 작성하고, 이 위험이 비즈니스에 미치는 영향을 이해하며, 솔루션을 찾고, 그리고 조직의 우선 순위에 따라 솔루션을 실행하는 것을 의미합니다.
다음 그림은 WAFR의 개선 단계에 포함된 주요 단계(step)를 보여 줍니다. 각 단계의 세부 사항에 대해 자세히 살펴보겠습니다.
그림 2 – 개선 단계 내의 주요 단계들
1- 위험 식별 (일명 : 개선 기회)
[예상 소요 시간 : 1일]
WAFR를 수행하는 중 식별되는 위험은 고위험 문제(HRI) 와 중간 위험 문제(MRI)로 구분됩니다. HRI는 비즈니스에 심각하게 부정적인 영향을 미칠 수 있는 아키텍처 및 운영 선택을 의미하며, 조직 운영, 자산 및 개인에 영향을 미칠 수 있습니다. AWS Well-Architected 의 보안 원칙(Pillar)에서의 HRI의 예로는 AWS 계정을 보호하지 않는 경우를 들 수 있습니다. MRI는 비즈니스에 부정적인 영향을 미칠 수도 있지만 HRI보다 그 정도는 적습니다. 보안 원칙에서의 MRI의 예로는 정기적으로 자격 증명을 감사하지 않거나 교체하지 않는 것입니다.
HRI/MRI 보고서 생성
HRI/MRI를 시각적으로 식별하는 첫 번째 단계는 검토한 각 워크로드의 위험요소를 보여주는 보고서를 생성하는 것입니다. AWS Well-Architected Tool (AWS WA Tool) 대시보드를 사용하면 워크로드와 관련된 HRI 및 MRI에 액세스할 수 있습니다. 공유된 워크로드도 포함할 수 있으며, 대시보드를 사용하여 워크로드, 원칙 또는 심각도(높음 또는 중간) 별로 문제를 필터링 할 수 있습니다.
이 다이어그램은 몇 가지 샘플 워크로드가 있는 대시보드의 예를 보여 줍니다.
그림 3 – AWS WA Tool 대시보드 예시
대시보드 화면 아래로 스크롤하면 HRI/MRI 목록이 표시됩니다. 원칙이나 심각도를 기준으로 필터링 할 수 있습니다. 다음 그림은 안정성 원칙에서 식별된 HRI/MRI 목록 예시입니다. 개선 항목을 선택하면 Well-Architected Framework에서 해당 항목과 관련된 모범 사례로 이동하며, 위험 개선을 위해 필요한 리소스와 문제를 해결하기 위해 취해야 하는 권장 조치에 대해 읽을 수 있습니다.
그림 4 – 신뢰성 원칙에서 식별된 HRI/MRI 목록 예시
이러한 모든 결과를 하나의 보고서에 나타내려면 아래 그림과 같이 WA Tool 대시보드에서 보고서 생성(Generate report)을 선택합니다.
그림 5 – 보고서 생성하기
생성된 보고서를 조직 내의 검토 팀과 공유하는 것을 권장합니다. 필자는 보통 고객에게 우리가 수행한 작업, 주요 결과 및 다음 단계를 준비할 수 있도록 제안된 개선 계획을 요약한 이메일을 보냅니다.
2- 위험 이해
[예상 소요 시간 : 2~3주]
위험을 해결하기 전에, 각 위험의 잠재적 심각성과 비즈니스에 미치는 영향, 조직에 가져다주는 가치, 그리고 개선을 위해 필요한 팀의 노력이 무엇이 있을지 이해하는 것이 중요합니다.
- HRI 및 MRI 정의를 기반으로 비즈니스에 미치는 위험 수준을 평가할 때는 다음과 같은 질문을 해보세요 :
- 그 위험으로 인해 고객과 비즈니스에 영향이 발생할 가능성은 어느 정도입니까?
- 고객에게 미치는 영향은 무엇입니까?
- 그 결과 비즈니스에 어떤 영향을 미칠까요?
- 위험을 완전히 제거할 수 있습니까, 아니면 일부만 완화 할 수 있습니까?
- 각 위험의 소유자는 누구입니까?
- 위험 제거 또는 완화를 위한 개선 작업의 책임자는 누구입니까?
주요 이해 관계자 또는 비즈니스 소유자가 이러한 질문에 답하면, 집중해야 할 가장 중요한 위험 목록과 이를 해결하기 위한 예상 소요 시간을 작성하는 데 도움이 됩니다.
가상의 워크로드를 예로 들어 설명하겠습니다.
HRI/MRI와 이로 인해 비즈니스에 초래될 수 있는 위험에 대해 팀원들과 대화를 나눈 후, 다음 그림과 같이 해결해야 할 HRI 를 식별합니다. (Well-Architected Framework 의 각 질문 별로 OSP4, REL1, COST1 와 같은 고유 식별 번호가 정의되어 있습니다. 2부에서 안내된 백서를 참고하세요.)
그림 6 – 해결해야 할 HRI 식별
3- 규범적 솔루션 결정
[예상 소요 시간: 4~5주]
조직의 환경에서 위험과 개선의 기회를 파악한 후에는 팀과 협력하여 위험에 적합한 규범적인 솔루션이 무엇인지 결정해야 합니다. 이 단계에서 각 팀은 관리하고 있는 부분에서 발견된 HRI를 분석하고 HRI를 해결하기 위한 규범적인 솔루션을 결정해야 합니다. 또한, 추가적인 연구, 토론 또는 개념 증명(Proof of Concept) 구축이 필요할 수 있습니다. 이 단계에서는 솔루션 구현에 대한 세부 사항으로 넘어가지 않는 것이 중요합니다. 문제가 되는 HRI가 워크로드에서 우선순위를 가진다고 결정이 되더라도 다음 단계에서 수행하게 됩니다. 이 단계의 목적은 솔루션의 복잡성과 솔루션에 필요한 리소스를 파악하여 4단계에서 우선순위 목록을 작성할 때 고려할 수 있도록 하는 것입니다.
예를 들어, HRI에 대해서 다음과 같이 솔루션을 결정합니다.
그림 7 – HRI 에 대한 솔루션 결정
4- 우선순위 결정과 실행 및 추적
[예상 소요 시간: 3~6주]
먼저 우선순위를 정해야 합니다. 어떤 조직도 무제한의 시간과 리소스를 가지고 있지 않습니다. WAFR를 통해서 찾은 모든 HRI/MRI 를 한 번에 해결하려고 시도하는 것은 WAFR을 최대한 활용하는 올바른 방법이 아닐 수 있습니다. 비즈니스에 큰 영향을 미치면서 실행은 그리 어렵지 않은 선별된 HRI/MRI 부터 시작할 것을 항상 권장합니다. 그런 다음에 솔루션을 실행하고 개선점을 추적합니다. 그리고 해당 접근 방식을 반복(Iteration)합니다.
그런데 구현해야 할 가장 중요한 항목의 우선순위는 어떻게 정해야 할까요?
솔루션 우선순위를 시각화하는 데 도움이 되는 한 가지 도구는 아이젠하워 매트릭스(Eisenhower Matrix) 입니다. 도구를 사용하는 방법은 다양합니다. 우선순위를 평가할 때는 비즈니스에 얼마나 많은 가치를 가져다주는지를 의미하는 개선의 중요성과 이를 실행하기 위한 노력, 필요한 시간, 복잡성 또는 인원수를 모두 고려해야 합니다.
분석을 수행하고 나면 비즈니스에 가장 큰 영향을 미치면서 동시에 구현은 복잡하지 않은 위험들을 알 수 있습니다. 이들은 첫 번째 반복(Iteration)에서 실행하기에 좋은 후보가 될 것입니다.
이 모델을 예제에 적용해 보겠습니다.
앞선 예에서 찾은 HRI를 검토하여 다음과 같이 결정할 수 있습니다.
그림 8 – HRI 에 대한 우선순위 기술
다음은 매트릭스를 사용하여 분석한 모습입니다. 우선순위를 REL1, COST1, OPS4 순서로 결정한 다음에, 실행하고 다음 HRI/MRI 세트에 대해서 프로세스를 반복합니다.
그림 9 – 영향도/복잡도를 고려한 솔루션 우선순위 결정
솔루션 특성
확인된 위험에 대한 솔루션을 선택할 때는 다음 사항을 고려해야 합니다:
- S.M.A.R.T: SMART 관점에서 솔루션을 생각합니다. 좋은 솔루션은 구체적인 결과(Specific outcome)가 있어야 하며, 측정할 수 있어야(Measured) 하고 달성할 수 있어야(Achievable) 합니다. 그리고 문제와 관련(Relevant to the issue)이 있어야 하며, 시간이 정해져(Time-bound) 있어야 합니다.
- 소유자: 모든 솔루션에 대해서 소유자를 식별해야 합니다.
- 단순하고 복잡하지 않음: 복잡한 솔루션은 작동할 수 있더라도 개선을 점점 더 어렵게 만듭니다. 항상 복잡함보다 단순함을 선택해야 합니다.
- 양방향 문(Two-way door) 솔루션: 솔루션은 확장할 수 있어야 하며 시간이 지남에 따라 개선되고 발전하도록 설계되어야 합니다. 가능하면 아키텍처가 발전함에 따라 적용할 수 없는 정적 솔루션은 피해야 합니다.
- 패턴 기반(Pattern-based): 솔루션은 코드화, 재사용 및 재공유가 가능합니다. 바퀴를 재창조하지 마세요. 여기에서 몇 가지 예를 확인할 수 있습니다.
타임라인
여러분은 다음과 같은 질문이 있을 수 있습니다. 이러한 단계를 거치는 일반적인 일정은 어떻게 되나요? 그에 대한 답은 아무도 알 수 없습니다. 모든 조직은 서로 다르며 고유한 과제를 가지고 있습니다. 그러나 많은 고객의 성공적인 WARF에서 본 바에 따르면 이 단계에서는 90-180일 동안 진행할 것을 권장합니다. HRI/MRI 목록을 처리하는 데 너무 오래 걸린다면 개선을 위해 프로세스를 연습할 수 있도록 우선순위를 다시 정하고 더 짧은 목록을 작성하는 것을 권장합니다. 그런 다음 나머지 항목에 대해 반복(Iteration)할 수 있습니다.
요약
이 게시글에서는 WAFR을 수행하여 아키텍처에서 HRI/MRI 를 찾고 해결하기 위한 개선 계획을 수립하는 단계를 설명했습니다. 개선 계획을 수립하기 전에 위험을 이해하고 분석하여 우선순위를 정합니다. 그리고 우선순위 접근 방식으로 가장 영향력 있는 솔루션을 결정합니다. 이를 달성하기 위해 몇 가지 툴과 리소스를 공유했습니다. 또한 좋은 솔루션을 만드는 몇 가지 특징을 공유했습니다. 다음 단계는 조직에서 몇 가지 워크로드에 대해 WAFR(Well-Architected Framework Review)을 수행하는 것의 중요성에 대해 팀에게 이야기하는 것입니다.