AWS 기술 블로그
AWS와 함께하는 웅진 AI Runner Challenge – 1부: 관제 인력 없이 클라우드 인프라 장애 대응하기
지난 2025년 7월 9일, AWS와 함께하는 ‘Gen AI Runner Challenge 2025’가 진행되었습니다. AI 기술이 고도화되면서, AI는 개인과 조직의 역량을 강화할 수 있는 열쇠가 되고 있습니다. 이번 AI Runner Challenge는 구성원의 상상력을 AI를 통해 직접 실현하는 자리이며, AI역량을 향상하고 실제 업무에 적용할 수 있는 기회였습니다. 본 게시글은 5부로 구성되어 있으며, 웅진의 AI Runner Challenge에 참가한 팀 중 우수사례로 선정된 5개 팀의 열정 가득했던 한달 간의AI 챌린지 여정과 결과물을 5편의 블로그 글로 소개합니다.
<Pic1: AWS x AI Runner Challenge 행사 사진>
웅진AI Runner Challenge 여정
웅진은 CEO 이수영 대표는 모든 직원이 AI를 경험하고, 이를 바탕으로 업무 및 고객 중심의 서비스 혁신을 주도해 나가길 기대했습니다. 그리고 AI를 활용해서 업무 역량을 향상시킬 수 있다고 자부했었습니다. 웅진은 현업 전문가가 AI 역량을 향상해서 아이디어를 구체화해서 업무에 적용하면 분명히 효과가 있을 것이라고 판단했습니다. 챌린지는 총 29개팀 107명이 AWS의 최신 생성형AI교육과 지원을 통해 한 달간 경합을 벌였습니다. 이번 챌린지는 기존의 개발직군만 참가하는 경연과는 달리 사무 직군도 7팀이나 참가하였으며, AWS로부터 직무에 맞는 생성형 AI 강의와 실습, 멘토링을 지원하였습니다.
AWS 는 직무에 따라 AI 활용 경험 수준이 다른 점을 고려하여 개발직군과 사무직군으로 나누어 교육을 진행하였습니다. 개발직군 대상 AI 활용 교육에서는 “생성형 AI Application 구현 방법론”을 Amazon Bedrock을 활용한 교육을 진행했으며, 다양한 구축 사례와 실습 교육을 통해 AI 활용 역량을 향상하였습니다. 사무직군은 Amazon Q Business를 통해 손쉽게 생성형AI 애플리케이션을 만들어 볼 수 있었고, 실습을 통해 비즈니스 질문에 대해 정확한 답변을 제공하는 사용자 맞춤 애플리케이션을 개발해 보았습니다. 영업/마케팅/인사 등 개발 경험이 전무한 참여자들도, 실습을 통해 ‘개발’에 대한 두려움을 극복하고 자신의 업무를 혁신할 수 있는 방법을 학습할 수 있었습니다. 교육 이후 본격적으로 자신들의 업무 문제를 AI로 해결하기 위한 기획과 개발에 착수했으며, 팀별 AWS 멘토들과 오피스 아워를 운영하였습니다.
AI 챌린지 우수 사례 소개
웅진 AI 챌린지를 통해 생성된 과제 중 실제 업무에 적용 가능한 우수 사례 5가지를 소개합니다. 웅진은 챌린지에서 도출된 아이디어를 각 사업부에서 검토하고 실무에 적용하며 AI 기반 업무 혁신을 추진하고 있습니다. 소개하는 사례는 웅진뿐 아니라 다양한 산업과 조직에 적용 가능한 범용적 사례를 중심으로 공유하여, 여러분의 업무 개선에도 인사이트를 제공하고자 합니다.
참가팀 소개
웅진IT 클라우드 사업부에 소속된 저희는 다양한 IT서비스의 클라우드 인프라를 운영하면서, “이 작업 매번 반복하는데 자동화할 수 없을까?” 하는 고민을 자주 했습니다.
특히 장애 모니터링이나 실적 보고 같은 반복 업무에 시간을 많이 쓰다 보니, 정작 중요한 개선 작업에 집중하기 어려웠어요. 이번 AI 챌린지를 계기로 실제 현장에서 겪는 문제를 AI로 어떻게 해결할 수 있을지 직접 실험해보고, 그 과정과 결과를 공유하게 되었습니다.
프로젝트 배경
클라우드 인프라가 복잡해지면서 장애 대응과 관제의 중요성이 커지고 있습니다. 기존 관제 체계는 알람 확인 및 전달을 관제원이 수작업으로 처리하고, 장애 이력 조회가 어려워 대응 시간이 지연되는 경우가 다수 발생합니다. 뿐만 아니라 24시간 관제를 위한 인력 유지로 비용 부담까지 발생하고 있습니다.
이러한 배경에서 반복적인 모니터링과 초기 장애 이력 조회를 자동화하여 인프라 운영 담당자가 핵심 업무에 집중할 수 있도록 프로젝트를 구성하였습니다. 구체적으로는 Amazon Connect로 AI가 알람을 수행하고, Bedrock 기반 LLM을 통해 장애 이력 조회 및 분석을 지원하며, Amazon Q를 통해 자연어 기반 명령을 제공하는 프로젝트를 기획하게 되었습니다.
클라우드 인프라 관제를 자동화 – Watch 119
“기존 관제 알림의 한계를 극복하라!”
- 높은 인건비: 새벽에 발생하는 인프라 관제 알림에 대해 사람이 직접 새벽 내내 모니터링하며 알림 발생 시 직접 전화 거는 방식
- 빈번한 리소스 알림: 매일 CPU, 메모리, 저장장치 알람이 하루에도 수십 건 발생하는데 이에 대한 일관된 대처 이력 관리 부재
- 비효율적인 프로세스: 대응, 기록, 보고까지 자동화 없이 사람이 모두 직접 처리하는 비효율적인 기존 프로세스
<Pic2: Watch119>
전체 아키텍처 개요
<Pic3: 이벤트를 Amazon Connect를 통해 음성 발신 및 상담내용 AI 기반 레포트 생성>
시스템 구성
- 장애 이벤트 수신 및 자동 발신
Slack에서 전달된 알람 이벤트를 Amazon API Gateway를 통해 AWS Lambda 함수에서 알람 이벤트를 파싱하고, Amazon Connect를 통해 담당자에게 자동 음성호 발신합니다.
<Pic4: Amazon Connect 관제 – 자동 발신>
- Amazon Connect Contact flow구성
- 장애 보고서 생성 트리거: Amazon DynamoDB에 저장된 통화 이력, 담당자 응답 여부를 통해 주간 및 월간 보고서를 자동 생성
- 통화 음성을 STT 변환: Connect 통화 녹취 파일은 S3에 저장되며, 오픈소스를 활용하여 음성을 텍스트로 변환
- AI 기반 응답 제공: Amazon Lex가 자연어 질의를 처리하고, Amazon Q와 Amazon Bedrock을 활용하여 통화 내용을 분석하고, 장애 대응 가이드를 제공
주요기능
- Amazon Connect를 사용한 관제 알림 자동화
기존 관제는 사람의 모니터링에 의존해 관제 알림이 발생하면 사람이 직접 전화를 발신하는 방식이었는데, 이벤트 정보 수집을 통해 Amazon Connect를 통해 담당자에게 음성 발신을 자동화를 제공한다.
- Lex 음성봇을 사용한 사용자의 음성 문의 처리
Amazon Connect와 통합되어 제공되는 Amazon Lex음성봇을 통해 사용자가 문의하고 싶은 내용을 음성으로 문의하면, Lex 음성봇이 이해하고 적절한 의도로 분기한다.
<Pic5: Amazon Lex 음성봇을 활용한 이벤트 대응>
1) 과거 대처 이력
이전 리소스 대처 이력을Amazon Knowledgebases를 구성하여 저장하여 사용자 발화문을 분석해서 검색한다. 확인된 내용은 Amazon Bedrock Nova Pro 모델을 활용하여 응답을 생성해서 사용자에게 전달된다.
<Pic6: Knowledge bases 활용한 발화문 검색 및 답변 생성>
2) 서버 재기동
서버 재기동을 실행하기 전에 담당자의 인증을 통한 비밀번호를 DTMF로 전송하고, 인증이 정상적으로 되면 Amazon Q Developer CLI 에이전트를 통해서 재기동을 진행한다.
<Pic7: Amazon Q Developer CLI를 홀용한 AWS 서비스 운영>
- 관리자 콘솔 제공 및 장애 보고서 자동 생성
이전에는 담당자가 장애 보고서에 알림 메시지와 대응 방법을 작성해서 보고했었으나, Watch 119에서는 이를 자동화하여 전화 종료 즉시 전화 내용을 텍스트화하여 장애 보고서를 자동 생성합니다.
<Pic8: Amazon Connect통화 음성을 텍스(STT) 변환 화면>
<Pic9: 장애 발생 시, 자동으로 생성된 장애 보고서 화면>
기대 효과
본 프로젝트는 모니터링 및 알림 자동화로 장애 감지부터 조치까지의 리드 타임을 획기적으로 단축합니다. 실시간 자동 알림 체계를 통해 신속한 초동 대응이 가능해지며, 서비스 안정성이 크게 향상됩니다. 단순 반복 업무 자동화로 운영 인력을 전략적 개선 활동에 집중시킬 수 있으며, AI 기반 과거 사례 검색을 통해 담당자 경험에 의존하던 방식을 표준화된 대응 프로세스로 전환합니다. 자동 수집된 데이터 기반의 장애 패턴 분석으로 반복 문제를 사전 파악하고, 선제적 개선을 통해 장애 발생 자체를 줄여나갈 수 있습니다.
결론
본 시스템은 24시간 관제 인력 없이도 안정적인 인프라 운영을 가능하게 하는 자동화 솔루션입니다. AI 기반 알림과 과거 이력 검색으로 대응 속도와 품질을 동시에 향상시키며, 클라우드 인프라를 운영하는 금융, 제조, 유통 등 다양한 산업군에 즉시 적용 가능합니다. 담당자는 반복 업무에서 벗어나 핵심 개선 활동에 집중할 수 있으며, 이는 인프라 관제의 새로운 표준을 제시하는 시도입니다.
시리즈 바로 가기
- 2부, AWS와 함께하는 웅진 AI Runner Challenge – 2부 : 비개발자도 만드는 AI 실적 인사이트 자동화 솔루션
- 3부, AWS와 함께하는 웅진 AI Runner Challenge – 3부: Amazon Bedrock 기반의 렌탈 제품 추천 AI 에이전트
- 4부, AWS와 함께하는 웅진AI Runner Challenge – 4부: Amazon Q Developer CLI 활용한 보안 취약점 진단 및 조치
- 5부, AWS와 함께하는 웅진AI Runner Challenge – 5부: Amazon Bedrock으로 바꾼 컨택센터 상담 품질 관리