Amazon Web Services 한국 블로그
생성형 AI 기반 SRE 복원력 여정을 위한 차세대 AWS Resilience Hub 소개
오늘은 새로운 애플리케이션 모델, 종속성 검색 평가, 생성형 AI 기반 장애 모드 분석, 모듈식 복원력 정책 및 조직 전체 보고를 통합하는 대폭 확장된 경험을 갖춘 차세대 AWS Resilience Hub를 발표합니다.
수백 개의 애플리케이션을 실행하는 조직은 공통적인 문제를 안고 있습니다. 가용성은 가장 큰 관심사이지만 포트폴리오 전반에서 복원력 목표를 설정하거나 진행 상황을 측정하거나 규정 준수를 입증할 일관된 방법이 없다는 것입니다. 팀은 서로 다른 표준을 설정하고, 서로 다른 도구를 사용하며, 애플리케이션이 실제로 기대치를 충족하는지 여부에 대한 정보를 교환하는 데 어려움을 겪고 있습니다.
차세대 AWS Resilience Hub는 사이트 신뢰성 엔지니어(SRE)와 개발 팀에 복원력 정책 기대치에 대해 합의하고, 애플리케이션 팀이 이를 달성하도록 지원하고, 테스트를 통해 규정 준수를 입증할 수 있는 체계적인 방법을 제공함으로써 이러한 상황을 변화시킵니다. AWS Organizations와의 통합을 통해 팀은 이제 대규모로 복원력을 평가하고, 장애 모드를 식별하고, 숨겨진 종속성을 발견하고, 기업 전체의 진행 상황을 보고할 수 있습니다.
차세대 Resilience Hub는 복원력 여정을 안내하며 다음과 같은 개념을 기본으로 제공합니다.
- 복원력 정책: 모듈식의 구성 가능한 요구 사항을 통해 복원력 기대치를 정의할 수 있습니다. 경직된 단일 정책 유형을 선택하는 대신 서비스 수준 목표(SLO), 다중 AZ 및 다중 리전 재해 복구, 데이터 복구 요구 사항 등 애플리케이션에 중요한 요구 사항을 선택하여 정책을 구성합니다.
- 비즈니스 수준의 이해: 비즈니스 성과에 직접 매핑되는 중요한 최종 사용자 경로를 통해 새로운 애플리케이션 모델링을 사용할 수 있습니다. 시스템은 비즈니스 애플리케이션을 나타내고, 사용자 여정은 중요한 비즈니스 경로를 설명하며, 서비스는 AWS 리소스, 코드 및 관찰성으로 구성된 배포 가능한 단위입니다. Resilience Hub는 자동으로 이를 검색하여 리소스가 연결되는 방식을 보여주는 토폴로지에 매핑합니다.
- AI 장애 모드 평가: 정의된 복원력 정책, AWS Well-Architected 모범 사례 및 AWS Resilience Analysis Framework를 기준으로 서비스를 분석하는 생성형 AI 기반 평가를 실행할 수 있습니다. 이러한 평가는 잠재적 장애 모드를 식별하고 실행 가능한 권장 사항을 제공합니다.
- 종속성 검색 평가: 서비스가 의존하는 AWS 서비스, 내부 엔드포인트 및 타사 엔드포인트를 자동으로 검색할 수 있습니다. 이 종속성 평가는 DNS 쿼리 로그 분석을 사용하여 예상치 못한 리전 간 호출이나 중요한 타사 종속성을 포함하여 알지 못할 수 있는 종속성을 식별합니다.
차세대 AWS Resilience Hub 작동 방식
시작하려면 복원력 정책을 구성하고, 첫 번째 시스템 및 서비스를 설정하고, 장애 모드 평가를 실행하고, 결과를 검토하고, 조사 결과를 구현합니다.
시작하기 전에 호출자 IAM 역할을 설정해야 합니다. 이 역할은 Resilience Hub에 AWS 리소스에 대한 읽기 전용 액세스 권한, 교차 계정 역할(AWS Organizations를 사용하지 않는 경우) 또는 AWS Organizations와의 서비스 연결 역할(SLR)을 부여합니다. 또한 Resilience Hub는 AWS Organizations와 통합되므로 위임된 단일 관리자 계정에서 조직 전체의 복원력을 관리할 수 있습니다. 따라서 기업 전체의 복원력 상태를 평가하기 위해 개별 계정에 로그인할 필요가 없습니다. 자세히 알아보려면 AWS Resilience Hub 사용 설명서의 사전 요구 사항 세부 정보를 참조하세요.
복원력 정책을 구성하려면 AWS Resilience Hub 콘솔의 정책 메뉴에서 정책 생성을 선택합니다. 정책 이름, 설명을 입력하고 복원력 요구 사항을 선택합니다. 예를 들어 99.95% 가용성 SLO, 15분 RTO, 다중 리전 재해 복구를 위한 5분 RPO, RTO 및 RPO 요구 사항에 맞는 재해 복구 접근 방식을 포함하여 금융 애플리케이션에 사용되는 다중 리전 재해 복구에 대한 재사용 가능한 정책을 만들 수 있습니다.
데이터 복구 요구 사항을 선택하는 경우, 이 정책과 관련된 각 서비스의 백업에서 복원하기 위한 데이터 복구 시간 목표를 정의할 수 있습니다.

비즈니스 애플리케이션을 나타내는 첫 번째 시스템을 만들려면 시스템 메뉴에서 시스템 생성을 선택합니다. 선택적으로 이 시스템에 대해 AWS Organizations 계정 액세스를 활성화할 수 있습니다.

이제 마이크로서비스와 같은 배포 가능한 단위를 나타내는 서비스를 만들어 시스템과 연결하고 Resilience Hub에 리소스를 찾을 위치를 알려줄 수 있습니다. 서비스 이름(예: stock-exchange-service)을 입력하고, 복원력 정책과 호출자 AWS IAM 역할 이름을 선택합니다. 서비스 리전, 리소스 태그와 같은 서비스 리소스, AWS CloudFormation 스택, Terraform 상태 파일 위치 또는 Amazon EKS 클러스터 및 네임스페이스를 선택할 수 있습니다.
이 서비스에 대한 종속성 검색을 활성화하면 AWS는 서비스의 리소스와 연결된 VPC의 VPC 쿼리 로그를 검사합니다. 서비스 세부 정보 페이지의 종속성 검색 설정에서 언제든지 이 기능을 비활성화할 수 있습니다.

이제 서비스 생성이 완료되고 정책이 적용된 상태에서 첫 번째 평가를 실행할 수 있습니다. 서비스 페이지에서 장애 모드 평가 실행을 선택하고 평가가 완료될 때까지 기다립니다.

평가 중에 Resilience Hub는 호출자 역할을 맡아, 구성된 입력 소스에서 리소스를 읽고, 상위-하위 관계를 식별하고, 애플리케이션 토폴로지 서비스를 쿼리하여 리소스 간 연결을 매핑하고, 데이터 흐름, 포함 관계 및 권한을 보여주는 토폴로지를 구축합니다.
서비스 토폴로지를 선택하면 그래프, 표 또는 JSON 형식으로 서비스 기능별로 그룹화된 서비스 리소스를 볼 수 있습니다.

장애 모드 지침을 선택하면 장애 모드 평가를 수행하는 동안 에이전트를 안내하는 데 사용되는 어설션을 추가할 수 있습니다. 어설션은 에이전트가 생성하거나 사용자가 추가합니다. 이를 업데이트하여 평가 정확도를 개선할 수 있습니다.

평가가 완료되면 서비스 페이지의 평가 탭에서 조사 결과 및 권장 사항을 검토할 수 있습니다. 각 조사 결과는 장애 모드가 무엇인지, 장애 모드가 아키텍처에 왜 중요한지, 해결 방법, 관련 정책 요구 사항을 알려줍니다.

권장 사항을 구현하려면 해결된 것으로 표시를 선택하거나, 조사 결과가 사용 사례에 적용되지 않는 경우 관련 없는 것으로 표시를 선택할 수 있습니다.
기존 Resilience Hub 고객인 경우 Resilience Hub는 이전 애플리케이션의 전환을 간소화하는 마이그레이션 API를 제공합니다. 이러한 API는 이전 평가 정책을 새로운 복원력 정책으로 변환하고, 이전 애플리케이션을 새 모델에 매핑합니다. 예를 들어 여러 관련 애플리케이션을 여러 서비스가 있는 하나의 시스템에 매핑합니다.
새로운 기능에 대한 자세한 내용은 AWS Resilience Hub 사용 설명서를 참조하세요.
지금 이용 가능
차세대 AWS Resilience Hub는 이제 Resilience Hub를 사용할 수 있는 AWS 상용 리전에서 정식 출시되었습니다. 리전별 가용 여부와 향후 로드맵은 리전별 AWS 기능을 참조하세요.
Resilience Hub는 새로운 서비스 기반 요금 모델을 사용합니다. 요금에는 서비스에 대한 월 2회의 장애 모드 평가와 선택적 자동 종속성 평가가 포함됩니다. AWS Resilience Hub를 무료로 사용해 볼 수 있습니다. 요금 세부 정보는 AWS Resilience Hub 요금 페이지를 참조하세요.
새로운 AWS Resilience Hub를 Resilience Hub 콘솔에서 사용해 보고 Resilience Hub용 AWS re:Post에 피드백을 보내주시거나 평소 이용하는 AWS Support 담당자를 통해 피드백을 보내주세요.
– Channy