메인 콘텐츠로 건너뛰기

AWS DevOps 에이전트

AWS DevOps 에이전트 기능

상시 가동, 자율적 인시던트 대응

모두 열기

AWS DevOps Agent는 ServiceNow와 같은 티켓팅 및 경보 시스템과 통합하여 인시던트 티켓으로부터 자동으로 조사를 시작하고, 기존 워크플로 내에서 인시던트 대응을 가속화하여 평균 해결 시간(MTTR)을 단축합니다.

대화형 채팅을 사용하여 조사를 시작하고 안내할 수도 있습니다. AWS DevOps 에이전트는 운영 팀의 일원으로 ServiceNow 및 Slack과 같은 협업 도구 내에서 직접 작업하여 결과를 공유하고 대응을 조정합니다. 필요한 경우, 조사를 통해 직접 AWS Support 사례를 생성하여 AWS Support 전문가에게 즉각적인 컨텍스트를 제공하여 더 빠르게 해결할 수 있습니다.

AWS DevOps 에이전트는 관찰성 도구, 코드 리포지토리 및 CI/CD 파이프라인과 통합되어 원격 분석, 코드 및 배포 데이터를 상호 연관시키고 분석하며 탐색한 가설, 관찰 내용 및 근본 원인 조사 결과를 공유합니다. AWS DevOps Agent는 체계적인 조사를 통해 전체 환경에서 시스템 변경, 입력 이상, 리소스 제한, 구성 요소 장애 및 종속성 문제에서 비롯된 제반 문제의 근본 원인을 파악합니다.

AWS DevOps Agent는 근본 원인을 파악한 후 인시던트 해결, 성공 확인, 필요 시 변경 사항 되돌리기를 실행하기 위한 제반 조치를 포함하는 상세한 완화 계획을 제공합니다. 또한 AWS DevOps 에이전트는 다른 프론티어 에이전트에서 구현할 수 있는 에이전트 지원 지침(예: Kiro 자율 에이전트가 구현할 수 있는 코드 개선)을 제공합니다.

AWS DevOps Agent는 전체 스택의 시스템 변경, 입력 이상 현상, 리소스 제한, 구성 요소 장애종속성 문제로 인한 경보를 체계적으로 조사하여 DevOps 팀에 목표 완화 단계를 안내하여 MTTR(평균 해결 시간)을 몇 시간에서 몇 분으로 단축합니다. 예를 들면, 다음과 같습니다.

  • 시스템 변경: 최근 코드 변경으로 인해 Amazon DynamoDB에 병목 현상이 발생하여 비효율적인 사용으로 인한 지연 시간이 길어지는 경우, AWS DevOps Agent는 즉각적인 완화 조치로 변경 사항을 롤백하도록 권장할 수 있습니다.
  • 시스템 변경: 코드 배포 후 필터 정책 불일치로 인한 Amazon SNS 구독 오류로 인해 인시던트가 발생한 경우, AWS DevOps Agent는 메시지 흐름을 복원하기 위한 즉각적인 완화 조치로 메시지 구조를 변경한 코드 변경을 롤백하도록 권장할 수 있습니다.
  • 입력 이상: 한도를 초과하는 높은 트래픽으로 인한 알림의 AWS Lambda 병목 현상으로 인해 인시던트가 발생한 경우, AWS DevOps 에이전트는 즉각적인 완화 조치로 동시성 제한을 늘리도록 권장할 수 있습니다.
  • 입력 이상: 메시지 크기 문제로 인한 Amazon SNS 메시지 게시 실패로 인해 인시던트가 발생한 경우, AWS DevOps 에이전트는 즉각적인 완화 조치로 Amazon SNS 메시지 게시에 검증을 추가하도록 권장할 수 있습니다.
  • 리소스 제한: 속도 제한 초과로 인한 API 스로틀링으로 인해 인시던트가 발생한 경우, AWS DevOps 에이전트는 즉각적인 완화 조치로 속도/버스트 제한을 높이는 것을 권장할 수 있습니다.
  • 리소스 제한: 쓰기 용량 초과로 인한 Amazon DynamoDB 스로틀링으로 인해 인시던트가 발생한 경우, AWS DevOps 에이전트는 즉각적인 완화 조치로 쓰기 용량을 늘릴 것을 권장할 수 있습니다.
  • 구성 요소 장애: 성능 저하에 따른 콜드 스타트 지연 시간으로 인해 인시던트가 발생한 경우, AWS DevOps Agent는 즉각적인 완화 조치로 프로비저닝된 동시성을 늘리는 것을 권장할 수 있습니다.

향후 인시던트를 사전에 예방

모두 열기

AWS DevOps Agent는 과거 인시던트의 패턴을 분석하여 관찰성, 인프라 최적화, 배포 파이프라인 개선, 애플리케이션 복원력이라는 네 가지 주요 영역을 강화하는 실행 가능한 권장 사항을 제공합니다. 예를 들어, 인프라 최적화 영역에서 AWS DevOps 에이전트는 예상치 못한 트래픽 급증 문제를 처리하기 위해 EKS 클러스터용 Kubernetes 수평 포드 오토스케일러(HPA)를 권장합니다. 

AWS DevOps Agent는 관찰 가능 범위의 격차와 경보를 미세 조정할 기회를 식별하여 평균 탐지 시간(MTTD)을 줄이므로 문제가 더 커지기 전에 이를 파악할 수 있습니다. 예를 들어, 최근 장애에 대한 인시던트 탐지가 너무 오래 걸렸다는 사실을 파악한 후, AWS DevOps Agent는 탐지 시간을 줄이고 운영 중단이 길어지는 것을 방지하기 위해 오류 소스 근처에서 모니터링 및 이상 탐지를 구현하도록 권장할 수 있습니다.

AWS DevOps Agent는 학습 루프를 사용하여 계속해서 권장 사항을 수정하고 운영 우선 순위에 맞게 조정하며 권장 사항에 대한 팀의 피드백을 기반으로 조직의 요구에 맞게 점점 더 관련성이 높은 권장 사항을 제공합니다.

AWS DevOps Agent는 과거 인시던트의 패턴을 분석하여 향후 운영 중단을 방지하고 시스템 복원력을 강화하는 대상 지정 권장 사항을 제공합니다. 실제 인시던트를 평가하여 관찰성, 인프라 최적화, 배포 파이프라인 개선, 애플리케이션 복원력의 네 가지 주요 영역에서 유사한 문제의 빈도와 영향을 줄이는 구체적이고 실행 가능한 개선 사항을 제공합니다.

  • 관찰성 개선: AWS DevOps Agent는 중요한 인증 시스템의 경우 탐지 시간을 줄이고 통합 중단이 연장되는 것을 방지하기 위해 경보 임곗값을 20분 동안 장애 15회에서 5분 이내에 장애 3회로 조정할 것을 권장할 수 있습니다.
  • 관찰성 개선: AWS DevOps 에이전트는 대상 지정 CloudWatch 지표 필터를 구현하여 IAM 역할 변경에 대한 비정상적인 ‘액세스 거부’ 패턴을 추적하도록 권장할 수 있습니다. 이렇게 하면 이전 경보에 비해 더 빠르게 탐지할 수 있습니다.
  • 인프라 개선: Amazon DynamoDB 테이블 스키마가 서비스의 기본 액세스 패턴과 일치하지 않아 전체 테이블 스캔이 비효율적이라는 점을 분석한 후, AWS DevOps Agent는 자주 쿼리되는 속성을 파티션 키로 사용하여 글로벌 보조 인덱스(GSI)를 생성할 것을 권장합니다. 이렇게 하면 스캔에서 쿼리로 작업을 전환하여 대기 시간을 2,500~3,500ms에서 100ms 미만으로 줄이고 병목 현상을 방지할 수 있습니다.
  • 인프라 개선: AWS DevOps Agent의 분석에 따르면 애플리케이션에 충분한 리소스가 있지만 트래픽이 급증할 때 모든 요청이 하나의 인스턴스로 대기하는 단일 포드 병목 현상이 발생합니다. AWS DevOps 에이전트는 Kubernetes 클러스터에 Horizontal Pod Autoscaler를 추가할 것을 권장할 수 있습니다. 이 클러스터는 수요에 따라 서비스를 수평적으로 자동 확장하여 로드를 여러 포드에 효과적으로 분산합니다.
  • 배포 파이프라인: 실패한 Amazon ECS 배포를 분석한 후, AWS DevOps 에이전트는 Amazon EventBridge를 사용하여 자동 롤백을 활성화하고 배포 상태를 모니터링할 것을 권장할 수 있습니다. 이러한 변경을 통해 작업 상태 확인 실패를 신속하게 탐지하고 해결하여 고객 트랜잭션이 중단되는 것을 방지할 수 있습니다.
  • 배포 파이프라인: 배포 실패를 분석한 후, AWS DevOps 에이전트는 Amazon ECS 작업 정의에 대해 Prometheus 연결을 위한 Amazon Managed Service의 필수적인 배포 전 검증을 권장할 수 있습니다. 이 권장 사항을 따르면 배포 프로세스 중에 연결 문제를 탐지하여 배포 실패를 줄일 수 있습니다.  

DevOps 도구를 최대한 활용

모두 열기

AWS DevOps Agent는 사용자의 환경에 대해 학습하면서 컨테이너, 네트워크 구성 요소, 로그 그룹, 경보, CI/CD 배포와 같은 애플리케이션 리소스를 식별하고 이러한 리소스가 연결되는 방식을 매핑하여 애플리케이션 리소스 맵을 생성합니다. 이 리소스 토폴로지를 원격 측정, 코드 및 배포 데이터와 결합하여 문제의 근본 원인을 정확하게 찾아냅니다.

AWS DevOps 에이전트는 다양한 관찰성 도구(Amazon CloudWatch, Dynatrace, Datadog, New Relic 및 Splunk), 코드 리포지토리, CI/CD 파이프라인(GitHub 작업 및 리포지토리, GitLab 워크플로 및 리포지토리)과의 기본 통합을 제공합니다. 

자체 MCP 서버에 연결하여 조직의 사용자 지정 도구, 특수 플랫폼 또는 독점 티켓 시스템과 같은 추가 도구와의 통합을 지원함으로써 AWS DevOps Agent를 기본 제공 통합 이상으로 확장할 수 있습니다. 예를 들어 자체 MCP 서버에 연결하여 Confluence의 Grafana 경보, Prometheus 지표 및 런북과 같은 오픈 소스 관찰성 신호들과 통합할 수 있습니다. 

오늘 원하는 내용을 찾으셨나요?

페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주십시오.