AWS DevOps 에이전트 기능
자율적 인시던트 대응
모두 열기AWS DevOps Agent는 ServiceNow와 같은 티켓팅 및 경보 시스템과 통합하여 인시던트 티켓으로부터 자동으로 조사를 시작하고, 기존 워크플로 내에서 인시던트 대응을 가속화하여 평균 해결 시간(MTTR)을 단축합니다.
대화형 채팅을 사용하여 조사를 시작하고 안내할 수도 있습니다. AWS DevOps 에이전트는 운영 팀의 일원으로 ServiceNow 및 Slack과 같은 협업 도구 내에서 직접 작업하여 결과를 공유하고 대응을 조정합니다. 필요한 경우, 조사를 통해 직접 AWS Support 사례를 생성하여 AWS Support 전문가에게 즉각적인 컨텍스트를 제공하여 더 빠르게 해결할 수 있습니다.
AWS DevOps 에이전트는 자동으로 인시던트를 분류하고 관련 경보의 상관 관계를 분석하여 동일한 이벤트에서 발생한 시기를 식별합니다. 이를 통해 어떤 경보가 서로 상관 관계에 있고 어떤 경보가 별도 조사가 필요한지 즉시 파악하여 인시던트 대응 속도를 높이고, 불필요한 정보를 줄이며, 팀이 가장 중요한 문제부터 우선 처리할 수 있도록 합니다.
AWS DevOps 에이전트는 관찰성 도구, 코드 리포지토리 및 CI/CD 파이프라인과 통합되어 원격 분석, 코드 및 배포 데이터를 상호 연관시키고 분석하며 탐색한 가설, 관찰 내용 및 근본 원인 조사 결과를 공유합니다. AWS DevOps Agent는 체계적인 조사를 통해 전체 환경에서 시스템 변경, 입력 이상, 리소스 제한, 구성 요소 장애 및 종속성 문제에서 비롯된 제반 문제의 근본 원인을 파악합니다.
AWS DevOps Agent는 근본 원인을 파악한 후 인시던트 해결, 성공 확인, 필요 시 변경 사항 되돌리기를 실행하기 위한 제반 조치를 포함하는 상세한 완화 계획을 제공합니다. 또한 AWS DevOps 에이전트는 다른 프론티어 에이전트에서 구현할 수 있는 에이전트 지원 지침(예: Kiro 자율 에이전트가 구현할 수 있는 코드 개선)을 제공합니다.
AWS DevOps 에이전트는 학습된 조사 기술을 개발하기 위해 과거 조사를 검토하여 조사 기능을 개선합니다. 학습한 조사 기술은 과거 조사 사례를 분석하여 사건의 우선 순위를 정하고 근본 원인 분석 및 완화 계획을 더 효율적이고 신속하게 수립하는 방법을 배우며, 시간이 지날수록 더 능숙해집니다.
- 시스템 변경: 최근 코드 변경으로 인해 Amazon DynamoDB에 병목 현상이 발생하여 비효율적인 사용으로 인한 지연 시간이 길어지는 경우, AWS DevOps Agent는 즉각적인 완화 조치로 변경 사항을 롤백하도록 권장할 수 있습니다.
- 시스템 변경: 코드 배포 후 필터 정책 불일치로 인한 Amazon SNS 구독 오류로 인해 인시던트가 발생한 경우, AWS DevOps Agent는 메시지 흐름을 복원하기 위한 즉각적인 완화 조치로 메시지 구조를 변경한 코드 변경을 롤백하도록 권장할 수 있습니다.
- 입력 이상: 한도를 초과하는 높은 트래픽으로 인한 알림의 AWS Lambda 병목 현상으로 인해 인시던트가 발생한 경우, AWS DevOps 에이전트는 즉각적인 완화 조치로 동시성 제한을 늘리도록 권장할 수 있습니다.
- 입력 이상: 메시지 크기 문제로 인한 Amazon SNS 메시지 게시 실패로 인해 인시던트가 발생한 경우, AWS DevOps 에이전트는 즉각적인 완화 조치로 Amazon SNS 메시지 게시에 검증을 추가하도록 권장할 수 있습니다.
- 리소스 제한: 속도 제한 초과로 인한 API 스로틀링으로 인해 인시던트가 발생한 경우, AWS DevOps 에이전트는 즉각적인 완화 조치로 속도/버스트 제한을 높이는 것을 권장할 수 있습니다.
- 리소스 제한: 쓰기 용량 초과로 인한 Amazon DynamoDB 스로틀링으로 인해 인시던트가 발생한 경우, AWS DevOps 에이전트는 즉각적인 완화 조치로 쓰기 용량을 늘릴 것을 권장할 수 있습니다.
- 구성 요소 장애: 성능 저하에 따른 콜드 스타트 지연 시간으로 인해 인시던트가 발생한 경우, AWS DevOps Agent는 즉각적인 완화 조치로 프로비저닝된 동시성을 늘리는 것을 권장할 수 있습니다.
AWS DevOps Agent는 전체 스택의 시스템 변경, 입력 이상 현상, 리소스 제한, 구성 요소 장애 및 종속성 문제로 인한 경보를 체계적으로 조사하여 DevOps 팀에 목표 완화 단계를 안내하여 MTTR(평균 해결 시간)을 몇 시간에서 몇 분으로 단축합니다. 예를 들면, 다음과 같습니다.
사전 예방적 인시던트 예방
모두 열기AWS DevOps 에이전트는 과거 인시던트의 패턴을 분석하여 관찰성, 인프라 최적화, 배포 파이프라인 개선, 애플리케이션 복원력이라는 네 가지 주요 영역을 강화하는 실행 가능한 권장 사항을 제공합니다. 예를 들어, AWS DevOps 에이전트는 문제가 프로덕션에 도달하는 것을 방해할 수 있는 테스트 격차를 식별할 수 있습니다. 권장 사항에는 애플리케이션 또는 인프라 코드를 업데이트하기 위해 코딩 에이전트나 동료에게 구현을 넘길 수 있는 에이전트 지원 사양도 포함됩니다. 따라서 백로그를 관리할 필요 없이 지속적인 개선이 가능합니다.
AWS DevOps Agent는 관찰 가능 범위의 격차와 경보를 미세 조정할 기회를 식별하여 평균 탐지 시간(MTTD)을 줄이므로 문제가 더 커지기 전에 이를 파악할 수 있습니다. 예를 들어, 최근 장애에 대한 인시던트 탐지가 너무 오래 걸렸다는 사실을 파악한 후, AWS DevOps 에이전트는 탐지 시간을 줄이고 운영 중단이 길어지는 것을 방지하기 위해 오류 소스 근처에서 모니터링 및 이상 탐지를 구현하도록 권장할 수 있습니다.
AWS DevOps Agent는 학습 루프를 사용하여 계속해서 권장 사항을 수정하고 운영 우선 순위에 맞게 조정하며 권장 사항에 대한 팀의 피드백을 기반으로 조직의 요구에 맞게 점점 더 관련성이 높은 권장 사항을 제공합니다.
AWS DevOps Agent는 과거 인시던트의 패턴을 분석하여 향후 운영 중단을 방지하고 시스템 복원력을 강화하는 대상 지정 권장 사항을 제공합니다. 실제 인시던트를 평가하여 관찰성, 인프라 최적화, 배포 파이프라인 개선, 애플리케이션 복원력의 네 가지 주요 영역에서 유사한 문제의 빈도와 영향을 줄이는 구체적이고 실행 가능한 개선 사항을 제공합니다.
- 관찰성 개선: AWS DevOps Agent는 중요한 인증 시스템의 경우 탐지 시간을 줄이고 통합 중단이 연장되는 것을 방지하기 위해 경보 임곗값을 20분 동안 장애 15회에서 5분 이내에 장애 3회로 조정할 것을 권장할 수 있습니다.
- 관찰성 개선: AWS DevOps 에이전트는 대상 지정 CloudWatch 지표 필터를 구현하여 IAM 역할 변경에 대한 비정상적인 ‘액세스 거부’ 패턴을 추적하도록 권장할 수 있습니다. 이렇게 하면 이전 경보에 비해 더 빠르게 탐지할 수 있습니다.
- 인프라 개선: Amazon DynamoDB 테이블 스키마가 서비스의 기본 액세스 패턴과 일치하지 않아 전체 테이블 스캔이 비효율적이라는 점을 분석한 후, AWS DevOps Agent는 자주 쿼리되는 속성을 파티션 키로 사용하여 글로벌 보조 인덱스(GSI)를 생성할 것을 권장합니다. 이렇게 하면 스캔에서 쿼리로 작업을 전환하여 대기 시간을 2,500~3,500ms에서 100ms 미만으로 줄이고 병목 현상을 방지할 수 있습니다.
- 인프라 개선: AWS DevOps Agent의 분석에 따르면 애플리케이션에 충분한 리소스가 있지만 트래픽이 급증할 때 모든 요청이 하나의 인스턴스로 대기하는 단일 포드 병목 현상이 발생합니다. AWS DevOps 에이전트는 Kubernetes 클러스터에 Horizontal Pod Autoscaler를 추가할 것을 권장할 수 있습니다. 이 클러스터는 수요에 따라 서비스를 수평적으로 자동 확장하여 로드를 여러 포드에 효과적으로 분산합니다.
- 배포 파이프라인: 실패한 Amazon ECS 배포를 분석한 후, AWS DevOps 에이전트는 Amazon EventBridge를 사용하여 자동 롤백을 활성화하고 배포 상태를 모니터링할 것을 권장할 수 있습니다. 이러한 변경을 통해 작업 상태 확인 실패를 신속하게 탐지하고 해결하여 고객 트랜잭션이 중단되는 것을 방지할 수 있습니다.
- 배포 파이프라인: 배포 실패를 분석한 후, AWS DevOps 에이전트는 Amazon ECS 작업 정의에 대해 Prometheus 연결을 위한 Amazon Managed Service의 필수적인 배포 전 검증을 권장할 수 있습니다. 이 권장 사항을 따르면 배포 프로세스 중에 연결 문제를 탐지하여 배포 실패를 줄일 수 있습니다.
온디맨드 SRE 태스크 처리
모두 열기DevOps 에이전트에게 운영 관련 질문을 하고 콘솔이나 모니터링 도구를 탐색할 필요 없이 실제 인프라에 기반한 즉각적이고 맥락에 맞는 답변을 받아보세요. 질문과 답변을 넘어, 일일 운영 상태 요약이나 4xx 오류 추세와 같은 맞춤형 차트와 보고서를 생성, 저장, 공유하여 운영 지표를 추적하고 팀과 인사이트를 공유하세요.
AWS DevOps 에이전트는 CloudWatch, Dynatrace, Datadog, New Relic, Splunk 같은 관찰성 도구, GitHub, GitLab, Azure DevOps 같은 코드 리포지토리 및 CI/CD 파이프라인, ServiceNow, PagerDuty, Slack 같은 티켓팅/협업 도구를 포함한 기존 도구와의 통합 기능을 기본적으로 제공하여 근본 원인을 신속하게 파악하고 향후 발생할 수 있는 문제를 사전에 방지하며 환경에 대한 상황에 맞는 답변을 필요에 따라 얻을 수 있도록 지원합니다.
프라이빗 또는 원격 MCP 서버에 연결하여 전용 시스템, 특수 플랫폼, 고객 관리 버전 제어 시스템 및 내부 인프라 문서를 비롯한 추가 도구와 통합할 수 있습니다. 이를 통해 AWS DevOps 에이전트는 조직의 실제 컨텍스트를 사용하여 더욱 정확한 인사이트를 제공하고 작업을 자동화하기 위해 내부 도구, 데이터 및 워크플로에 안전하게 액세스할 수 있습니다.
AWS DevOps 에이전트는 환경을 학습하여 애플리케이션, 구성 요소 서비스 및 이러한 서비스를 구성하는 리소스를 자동으로 검색합니다. 에이전트는 내장된 토폴로지 기능을 사용하여 구성된 모든 도구를 살펴보고 사용자 입력을 받아 애플리케이션 리소스, 관계, 주요 흐름에 대한 심층적인 이해를 생성합니다. 이 기능은 이러한 관계를 동적이고 지속적으로 업데이트되는 토폴로지로 매핑하여 애플리케이션에 대한 진정한 개요 보기를 제공합니다. AWS DevOps 에이전트는 이 실시간 리소스 맵을 원격 측정 데이터, 코드 및 배포 데이터와 상호 연관시켜 환경에 대한 깊은 이해를 구축함으로써 문제 해결 속도를 높이고 향후 문제를 사전에 예방하며 애플리케이션 실행 방식을 기반으로 상황에 맞는 답변을 제공합니다.
AWS DevOps 에이전트가 일관되고 안정적으로 태스크를 실행하기 위해 간접적으로 호출할 수 있도록 재사용 가능하고 모듈화된 기술을 추가합니다. 고객과 파트너가 정의한 기술을 사용하면 에이전트의 기능을 환경에 맞게 확장할 수 있습니다. 예를 들어 로그 위치, 명명 규칙 및 쿼리 전략에 대한 정보를 제공하여 AWS DevOps 에이전트가 온프레미스 데이터베이스 로그를 쿼리하도록 하는 기술을 정의할 수 있습니다. 에이전트에 조직 지식을 전달함으로써 서비스 검색 및 로그 분석부터 인시던트 대응 런북 및 팀 소유권 정보에 이르기까지 모든 것을 강화할 수 있습니다.
오늘 원하는 내용을 찾으셨나요?
페이지의 콘텐츠 품질을 개선할 수 있도록 피드백을 보내주세요.