AWS 기술 블로그
야놀자의 Strands SDK와 Bedrock AgentCore를 활용한 AIOps Agent 구축 사례
현대 기업의 인프라 운영 환경은 점점 더 복잡해지고 있습니다. 클라우드 네이티브 아키텍처의 확산과 마이크로서비스 기반 애플리케이션의 증가로 인해 운영팀은 수많은 반복적인 작업과 장애 대응에 시달리고 있습니다. 야놀자는 이러한 운영 과제를 해결하기 위해 Amazon Bedrock AgentCore를 활용한 AIOps Agent 구축 프로젝트를 진행했습니다.
이 글에서는 야놀자가 6개 팀, 14명의 엔지니어와 함께 6주간 AWS와 협력하여 어떻게 6개의 AI Agent를 구축하고, 수동 업무 시간을 50% 이상 감소시켰는지 소개합니다.
야놀자 소개

야놀자는 여행과 레저 플랫폼을 제공하는 기업으로, NOL, 인터파크투어, 트리플 등의 브랜드를 통해 항공권, 숙박, 패키지, 교통, 공연, 전시, 스포츠 경험을 제공합니다. 대규모 트래픽을 처리하는 클라우드 인프라를 운영하며, DevOps, Cloud Strategy, DB Engineering, Datacenter Engineering, FinOps, SRE, Developer Platform Engineering 등 여러 인프라 팀이 24/7 운영을 담당하고 있습니다.
AIOps 도입 배경
야놀자의 인프라 팀이 직면한 운영 과제는 다음과 같습니다.
1. 반복적인 수동 업무의 증가
- 매일 평균 8건 이상의 운영 문의가 발생했으며, BaseHelm 버전 확인, EKS Canary 배포 상태 조회 등 정형화된 질문이 반복되었습니다. 담당자의 업무 부하에 따라 응답 시간이 불균일했고, 이는 개발팀의 생산성 저하로 이어졌습니다.
2. 장애 대응 프로세스의 비효율성
- 장애 발생 시점과 포스트모템 작성 사이에 최대 2주의 시간 간극이 발생했습니다. 장애 히스토리가 Confluence, Jira, Slack에 분산되어 있어 과거 사례를 참고하기 어려웠고, 유사한 장애가 반복적으로 발생했습니다.
3. 복잡한 인프라 진단 과정
- IDP(Internal Developer Platform) 장애 발생 시 수동으로 로그를 분석하고 원인을 파악해야 했습니다. ECS 인프라 생성 실패, 런타임 환경 이슈 등 다양한 문제를 진단하는 데 많은 시간이 소요되었습니다.
4. 데이터베이스 알람 대응의 어려움
- DB 알람 발생 시 Datadog과 Grafana 메트릭을 수동으로 확인하고, 슬로우 쿼리를 분석하며, 관련 개발팀 담당자를 찾아 연락하는 과정이 필요했습니다. 이로 인해 MTTR(Mean Time To Resolution)이 평균 10분 이상 소요되었습니다.
5. 비용 관리의 복잡성
- AWS 비용 확인 절차가 복잡하고, 비개발자가 비용 데이터를 이해하기 어려웠습니다. 비용 절감 정보를 획득하는 것도 쉽지 않았습니다.
이러한 과제를 해결하기 위해 야놀자는 AI Agent 기반 인프라 운영 자동화 솔루션 구축을 결정했고, 총 7개 팀에서 14명의 엔지니어가 참여하여 6주간 Full-day Sprint 방식으로 개발을 진행했습니다.
AIOps 구축 계획
목표
야놀자는 “AI Agent Solution for Pain Points”라는 비전 아래, 실질적인 문제 해결에 집중했습니다. 반복적이고 정형화된 인프라 업무의 자동화를 통해 운영 효율성을 높이는 것이 핵심 목표였습니다.
1. 정량적 목표: 수동 업무 시간 50% 이상 감소
- 매일 반복되는 운영 문의, 장애 대응, 비용 확인 등 정형화된 수동 업무를 절반 이하로 줄이는 것을 목표로 했습니다. 단순한 자동화를 넘어 팀이 더 높은 가치의 업무에 집중할 수 있는 환경을 만드는 데 의미가 있었습니다.
2. 정성적 목표: ‘AI Champion’ 양성을 통한 조직의 AI 활용 역량 내재화
- 단순히 AI 도구를 도입하는 것에서 그치지 않고, 조직 내에서 AI를 능동적으로 활용할 수 있는 ‘AI Champion’을 양성하는 것을 목표로 했습니다. 외부 의존 없이 자체적으로 AI 역량을 지속 발전시킬 수 있는 조직 체계 구축이 핵심이었습니다.
3. 산출물: 실제 작동하는 Agent와 개발 가이드
- 6주간의 Sprint 결과물로 현업에서 즉시 사용 가능한 Agent와, 이후에도 팀이 자체적으로 확장할 수 있는 개발 가이드를 함께 산출하는 것을 목표로 했습니다.
AWS 솔루션 선택
Amazon Bedrock과 Amazon Bedrock AgentCore

야놀자는 다음과 같은 이유로 Amazon Bedrock과 Amazon Bedrock AgentCore를 선택했습니다. Amazon Bedrock은 다양한 파운데이션 모델을 API 형태로 제공하는 AWS의 완전 관리형 생성 AI 서비스이며, Amazon Bedrock AgentCore는 AI Agent를 프로덕션 환경에서 안전하게 구축, 배포, 운영할 수 있도록 지원하는 완전 관리형 플랫폼입니다.
- 엔터프라이즈급 보안과 컴플라이언스
- Amazon Bedrock은 데이터가 모델 학습에 사용되지 않으며, VPC 내에서 안전하게 운영할 수 있습니다. 금융 및 의료 수준의 보안 요구사항을 충족하며, 고객 데이터 보호가 보장됩니다.
- 다양한 Foundation Model 지원
- Claude Opus 4.6, Sonnet 4.6, Amazon Nova Pro 2 등 최신 LLM을 즉시 활용할 수 있으며, 모델 간 전환이 용이합니다. 각 Agent의 특성에 맞는 최적의 모델을 선택할 수 있었습니다.
- 완전 관리형 서비스
- 인프라 관리 부담 없이 Agent 개발에 집중할 수 있었습니다. Auto-scaling과 고가용성이 기본 제공되어 운영 부담이 최소화되었습니다. AgentCore Runtime은 최대 8시간의 장기 실행 워크로드를 지원하며, 세션 단위의 완전한 격리 환경을 제공합니다.
- Knowledge Base와 RAG 통합
- Amazon Bedrock Knowledge Base와 OpenSearch를 활용하여 Self-correct RAG 패턴을 구현할 수 있었습니다. 기존 문서와 히스토리를 Agent의 지식으로 즉시 활용할 수 있었습니다.
Strands Agent SDK

야놀자는 복잡한 Agent 간 협업을 구현하기 위해 Strands Agents를 활용했습니다. Strands Agents는 AWS가 공식 개발한 오픈소스 AI Agent SDK로, 모델의 추론 능력을 기반으로 작업 계획, 위임, 평가를 수행하는 모델 드리븐(model-driven) 방식을 채택하고 있습니다.
- Orchestrator Agent 패턴
- 사용자 요청을 분석하고 적절한 Sub-Agent에게 작업을 위임하는 Supervisor Agent를 구현했습니다. Sub-Agent는 Orchestrator Agent의 도구(tool)로 등록되어 호출됩니다.
- Context 공유
- Agent 간 대화 컨텍스트를 유지하여 연속적인 대화가 가능하도록 했습니다.
- Tool Integration
- Strands의 네이티브 MCP(Model Context Protocol) 지원을 통해 AWS API, DataDog, GitHub, ArgoCD, Harbor 등 다양한 외부 시스템과 통합했습니다.
AIOps 구현 – 6개의 인프라 운영 자동화 에이전트
이번 프로젝트에서 7개 팀은 각자의 운영 Pain Point를 Agentic AI로 해결했습니다. AWS Bedrock, MCP Server, Strands Framework 등을 활용한 Multi-Agent 시스템을 설계했으며, Slack과 Streamlit 등 기존 업무 채널을 진입점으로 삼아 엔지니어의 워크플로우에 자연스럽게 녹아드는 자동화를 구현했습니다.
IDP 장애 진단부터 DB 알람 대응, FinOps 비용 분석, 데이터센터 자산 관리까지, 각 팀의 접근 방식과 결과를 공유합니다.
1. Agentic AI 기반 IDP 운영 효율화 (Internal Platform Eng.)
“Multi-Agent 협업으로 IDP 장애 진단을 자동화하다”
Pain Point
Internal Developer Platform(IDP) 장애 발생 시 수동 대응이 필요했고, 복잡한 로그 분석과 반복적인 문의 처리에 많은 시간이 소요되었습니다.
Solution Architecture

Multi-Agent 시스템을 구축하여 사용자 요청을 자동으로 처리하도록 했습니다. Support Agent가 Supervisor 역할을 수행하며, Knowledge Agent, Provisioning Doctor Agent, Runtime Diagnostic Agent가 협업합니다.
핵심 구성
- Support Agent (Orchestrator): 모든 요청의 진입점으로 질문 의도를 파악하고 적절한 Sub-Agent에게 라우팅합니다. AgentCore Memory를 활용하여 멀티턴 대화의 단기 기억을 유지하며, Strands Framework를 활용하여 Agent 간 협업을 조율합니다.
- Knowledge Agent: IDP 관련 지식 베이스를 검색하고 Self-correct RAG 패턴을 적용합니다. Bedrock Knowledge Base와 OpenSearch를 활용하여 정확한 답변을 제공합니다.
- Provisioning Doctor Agent: ECS 인프라 생성 단계 실패를 진단합니다. IaC 로그를 심층 분석하고, 로그 수집 → 에러 분류 → RCA → 해결책 생성의 워크플로우를 자동으로 수행합니다.
- Runtime Diagnostic Agent: IDP 런타임 환경 이슈를 진단합니다. ECS 리소스 상태를 모니터링하고 DataDog 로그를 분석하여 문제를 파악합니다.
- AgentCore Identity: Agent 간 A2A 통신 시 M2M(Machine-to-Machine) 인증을 담당하며, 각 Agent의 호출 권한을 안전하게 검증합니다.
기대효과
- 티켓 감소율 50%
- 단순 반복 문의 50% 감소
- MTTR 10분에서 5분으로 50% 단축
- AI 원인 분석 일치율 50% 이상
2. Slack 기반 AI 장애대응 프로세스 자동화 (DevOps Eng.)
“장애 대응부터 포스트모템까지, 2주에서 24시간으로”
Pain Point
장애 발생 시점과 포스트모템 사이의 시간적 간극이 최대 2주였으며, Confluence, Jira, Slack으로 분산된 히스토리 관리가 어려웠습니다.
Solution Architecture

Slack Bot이 Python Handler를 통해 AI Agent와 연동되며, Agent는 DataDog, AWS API Metrics, S3에 저장된 History를 활용합니다. 발생 시점으로부터 24시간 이내 포스트모템 문서 공유, Worst case 5분 이내 진행상황 인지를 목표로 합니다.
핵심 구성
- 실시간 장애 대응 상황 요약: 장애 진행 상황을 자동으로 취합하여 요약합니다.
- 자동 포스트모템 초안 작성: AI가 장애 경과와 원인을 분석하여 포스트모템 문서 초안을 생성합니다.
- 관련 메트릭 및 로그 자동 수집: DataDog, AWS 등에서 관련 데이터를 자동으로 수집합니다.
기대효과
- 장애 발생부터 포스트모템까지의 시간을 2주에서 24시간으로 단축
- 장애 대응 프로세스의 일관성 확보
3. Agentic AI 기반 DB ChatBot (DB Eng.)
“DB Alert 발생 시 Agent가 먼저 분석하고 담당자를 찾는다”
Pain Point
DB Alert 발생 시 수동 대응이 필요했고, Datadog과 Grafana 메트릭 확인, 슬로우 쿼리 분석, 관련 개발팀 담당자 확인에 시간이 소요되었습니다.
Solution Architecture

Slack을 통해 DB Chatbot이 요청을 받고, Orchestrator Agent가 Strands Framework를 활용하여 작업을 조율합니다. DataDog MCP와 CloudWatch MCP를 통해 메트릭을 수집하고, Bedrock Knowledge Base와 Confluence에서 지식을 검색합니다. AWS Bedrock과 Claude Sonnet을 활용합니다.
핵심 구성
- Orchestrator Agent: 자연어 요청을 분석하고 의도를 파악하여 적절한 Tools를 선택합니다. Agent 간 컨텍스트를 공유합니다.
- DB 실시간 메트릭 조회: CPU, 메모리, 연결 수, IOPS 등 주요 지표를 실시간으로 확인합니다.
- 자동 분석 및 원인 파악: 알람 발생 시 관련 메트릭을 종합 분석하여 원인을 파악하고 권장 조치 사항을 제시합니다.
- 알람 변경 히스토리 추적: 과거 이력을 기반으로 패턴을 파악합니다.
기대효과
- 이슈 발생 시 관련 리소스 분석 및 대응 시간 단축
- 일관된 질의 수행
- 방대한 히스토리 데이터 신속 파악
4. AI Agent for DataCenter (System/Network Eng.)
“데이터센터 자산 변경사항, 이제 AI가 자동으로 반영한다”
Pain Point
다수 장비의 비정기적 작업으로 많은 변경사항이 발생했고, 자산대장, 스위치 Portmap, IP 반납대장 등 수정 문서가 다수였습니다.
Solution Architecture

Ansible로 서버와 스위치 상태 값을 수집하고, 변경 사항을 AI를 통해 자동 업데이트합니다. AWS S3에 데이터를 적재하고 Bedrock으로 데이터를 분석 및 운영합니다.
핵심 구성
- 상태 값 자동 수집: Ansible을 활용하여 서버 및 스위치 상태를 자동으로 수집합니다.
- 문서 자동 업데이트: 수집된 변경 사항을 AI가 분석하여 관련 문서를 자동으로 갱신합니다.
- 데이터 적재 및 분석: S3에 데이터를 저장하고 Bedrock을 통해 분석합니다.
기대효과
- 수동 문서 관리 작업 감소
- 자산 정보의 정확성 및 최신성 확보
향후 계획
- 상면 정보 이미지 OCR 개선
- PNG 이미지 파일 자동 등록
- 자연어 확장(자동화 대응 → FAQ 챗봇)
5. FinOps Helper (FinOps Eng.)
“자연어로 AWS 비용을 묻고 최적화 방향을 찾다”
Pain Point
AWS 비용 확인 절차가 복잡하고, 비용 절감 정보 획득이 어려웠으며, 비개발자의 데이터 이해 난이도가 높았습니다.
Solution Architecture

Streamlit Frontend를 통해 사용자가 요청하면, Orchestrator Agent가 Cost Lookup Agent와 Advisor Agent를 조율합니다. Bedrock Knowledge Base가 지식을 제공합니다.
핵심 구성
- Cost Lookup Agent: 자연어 기반 비용 질의를 처리하고, Knowledge Base에서 스키마를 참고하여 SQL을 자동 생성하고 Athena(CUR)를 실행합니다.
- Advisor Agent: 일반 비용 문의를 처리하고, AWS MCP 서버와 연동하여 최적화 가이드를 제공합니다.
- Orchestrator Agent: 질의를 분석하여 적절한 Agent를 선택하고, Agent 간 컨텍스트를 공유하며 연속 대화를 지원합니다.
기대효과
- 비용 확인 및 분석 프로세스 간소화
- 자동화로 업무 효율성 향상
- 비개발자도 AWS 비용 조회 가능
향후 계획
- 다른 클라우드 제공자로 확장
- 예약 및 주문 등 실제 운영 서비스 단위 비용 가시화
6. DataDog 적용 도우미 DD_Kitty (Insight Eng.)
“DataDog 설정 검증과 분석, 불필요한 소통 없이 자동으로 처리하다”
Pain Point
반복적인 DataDog APM, Redis 연동 문의가 발생했고, Git Repository와 Manifest 수동 확인이 필요했으며, 설정 문제 해결 과정의 잦은 소통이 필요했습니다.
Solution Architecture

Slack을 통해 Flask API로 요청이 전달되고, Amazon SQS를 거쳐 AWS Lambda가 Bedrock을 호출합니다. 4개의 Agent가 순차적으로 협업하여 자동 검증 및 분석을 수행합니다.
핵심 구성
- Puller Agent: GitHub에서 Manifest를 수집합니다.
- Analyzer Agent: 수집된 설정 파일을 분석합니다.
- Validator Agent: 설정을 검증하여 문제를 식별합니다.
- Reporter Agent: 분석 및 검증 결과를 종합하여 보고서를 생성합니다.
기대효과
- 정형화된 문의 대응 자동화
- 원인 분석 및 해결 방법 자동 제시
- 효율적 소통으로 문제 해결 시간 단축
향후 계획
- 분석 기반 GitHub PR 자동 생성
- Knowledge Base 자동 업데이트
- 대시보드 및 모니터링 자동 생성
AIOps 도입 결과
성과
6주간의 Sprint는 단순한 프로토타입 구축을 넘어, 조직 전반의 AI 엔지니어링 역량을 한 단계 끌어올리는 계기가 되었습니다.
- AI Agent 개발 경험 내재화: 14명의 엔지니어가 프롬프트 엔지니어링, RAG 파이프라인 구성, Agent 도구 연동 등 AI Agent 개발의 전 과정을 직접 경험하며 실전 역량을 확보했습니다.
- 문제 해결 관점의 전환: 기존에 수동 스크립트나 런북으로 대응하던 운영 업무를 “AI Agent에게 위임 가능한 작업”으로 재정의하는 사고방식이 팀 전반에 확산되었습니다.
- 기술 스택 표준화 기반 마련: AWS Bedrock, Strands Agents SDK, A2A 프로토콜 등 에이전트 개발에 필요한 핵심 기술 스택에 대한 조직 차원의 이해와 운영 노하우가 축적되었습니다.
향후 방향성
Sprint에서 검증된 개별 AI Agent의 성과를 조직 전체로 확산하기 위해, 에이전트 통합 운영 플랫폼을 구축합니다.
- 지능형 오케스트레이터 구축: 사용자의 자연어 요청을 분석하여 적절한 도메인 에이전트에 자동 위임하는 Core Agent를 개발하고, 사내 기술 문서 기반 RAG 질의응답 체계를 확립합니다.
- 에이전트 저작 환경 제공: 엔지니어가 코딩 없이 에이전트를 생성배포할 수 있는 GUI 기반 Agent Builder를 구축하여 에이전트 개발 생산성을 획기적으로 높입니다.
- 멀티 에이전트 협업 체계 확장: A2A 프로토콜 기반으로 복수의 도메인 에이전트가 협력하여 복합 요청을 처리하는 자생적 에이전트 생태계를 구축합니다.
- 전문화된 도메인 에이전트 확대: SRE(장애 대응모니터링), DBA(쿼리 최적화·성능 튜닝), DevOps(배포 자동화·인프라 프로비저닝), Security(보안 감사·컴플라이언스) 등 IT 운영 전 영역을 커버하는 도메인 특화 에이전트를 단계적으로 확대합니다.
결론
야놀자는 6주간의 AWS와 협력 통해 AI Agent 기반 인프라 운영 자동화의 실질적인 가능성을 입증했습니다. 7개 팀, 14명의 엔지니어가 각자의 운영 Pain Point를 출발점으로 삼아 6개의 AI Agent를 구축했으며, 수동 업무 시간 50% 이상 절감, MTTR 50% 단축, 포스트모템 작성 시간 2주에서 24시간으로 단축이라는 의미 있는 성과를 달성했습니다.
이번 프로젝트의 핵심 성공 요인은 세 가지로 요약할 수 있습니다.
첫째, 현업 중심의 문제 정의입니다. 기술 도입 자체가 아닌, 각 팀이 매일 겪는 구체적인 운영 과제에서 출발했기 때문에 실질적인 비즈니스 임팩트를 만들어낼 수 있었습니다. IDP 장애 진단, DB 알람 대응, FinOps 비용 분석 등 모든 Agent는 엔지니어의 실제 워크플로우에 자연스럽게 통합되도록 설계되었습니다.
둘째, AWS 완전 관리형 서비스의 활용입니다. Amazon Bedrock은 엔터프라이즈급 보안과 다양한 Foundation Model을 제공하여 Agent 개발에만 집중할 수 있는 환경을 만들었고, Amazon Bedrock AgentCore는 프로덕션 수준의 배포와 운영을 간소화했습니다. Strands Agents SDK의 모델 드리븐 방식과 네이티브 MCP 지원은 복잡한 Multi-Agent 협업 구현의 진입 장벽을 크게 낮추었습니다.
셋째, 조직 역량의 내재화입니다. 단순히 프로토타입을 만드는 것에 그치지 않고, 14명의 ‘AI Champion’을 양성하고 재사용 가능한 개발 가이드와 컴포넌트를 축적함으로써 지속적인 AI 혁신의 기반을 마련했습니다.
야놀자는 앞으로 이번 Sprint에서 구축한 7개 Agent 프로토타입을 프로덕션 환경에 단계적으로 적용하고, GitHub PR 자동 생성, Knowledge Base 자동 업데이트, 멀티 클라우드 비용 분석 등으로 기능을 확장해 나갈 계획입니다. 더 나아가 Agent 간의 연계를 강화하여 인프라 운영 전반을 아우르는 통합 AIOps 플랫폼으로 발전시키는 것을 목표로 하고 있습니다.
AIOps 도입을 고려하고 계신다면, 팀이 가장 자주 반복하는 업무 하나를 자동화하는 것에서 시작해 보시길 권합니다. 야놀자의 사례가 보여주듯, 구체적인 Pain Point에서 출발한 AI Agent는 빠르게 실질적인 가치를 만들어냅니다.