AWS 기술 블로그

AWS와 함께하는 웅진 AI Runner Challenge – 1부: 관제 인력 없이 클라우드 인프라 장애 대응하기

지난 2025년 7월 9일, AWS와 함께하는 ‘Gen AI Runner Challenge 2025’가 진행되었습니다. AI 기술이 고도화되면서, AI는 개인과 조직의 역량을 강화할 수 있는 열쇠가 되고 있습니다. 이번 AI Runner Challenge는 구성원의 상상력을 AI를 통해 직접 실현하는 자리이며, AI역량을 향상하고 실제 업무에 적용할 수 있는 기회였습니다. 본 게시글은 5부로 구성되어 있으며, 웅진의 AI Runner Challenge에 참가한 팀 중 우수사례로 선정된 5개 팀의 열정 가득했던 한달 간의AI 챌린지 여정과 결과물을 5편의 블로그 글로 소개합니다.

<Pic1: AWS x AI Runner Challenge 행사 사진>

웅진AI Runner Challenge 여정

웅진은 CEO 이수영 대표는 모든 직원이 AI를 경험하고, 이를 바탕으로 업무 및 고객 중심의 서비스 혁신을 주도해 나가길 기대했습니다. 그리고 AI를 활용해서 업무 역량을 향상시킬 수 있다고 자부했었습니다. 웅진은 현업 전문가가 AI 역량을 향상해서 아이디어를 구체화해서 업무에 적용하면 분명히 효과가 있을 것이라고 판단했습니다. 챌린지는 총 29개팀 107명이 AWS의 최신 생성형AI교육과 지원을 통해 한 달간 경합을 벌였습니다. 이번 챌린지는 기존의 개발직군만 참가하는 경연과는 달리 사무 직군도 7팀이나 참가하였으며, AWS로부터 직무에 맞는 생성형 AI 강의와 실습, 멘토링을 지원하였습니다.

AWS 는 직무에 따라 AI 활용 경험 수준이 다른 점을 고려하여 개발직군과 사무직군으로 나누어 교육을 진행하였습니다. 개발직군 대상 AI 활용 교육에서는 “생성형 AI Application 구현 방법론”을 Amazon Bedrock을 활용한 교육을 진행했으며, 다양한 구축 사례와 실습 교육을 통해 AI 활용 역량을 향상하였습니다. 사무직군은 Amazon Q Business를 통해 손쉽게 생성형AI 애플리케이션을 만들어 볼 수 있었고, 실습을 통해 비즈니스 질문에 대해 정확한 답변을 제공하는 사용자 맞춤 애플리케이션을 개발해 보았습니다. 영업/마케팅/인사 등 개발 경험이 전무한 참여자들도, 실습을 통해 ‘개발’에 대한 두려움을 극복하고 자신의 업무를 혁신할 수 있는 방법을 학습할 수 있었습니다. 교육 이후 본격적으로 자신들의 업무 문제를 AI로 해결하기 위한 기획과 개발에 착수했으며, 팀별 AWS 멘토들과 오피스 아워를 운영하였습니다.

AI 챌린지 우수 사례 소개

웅진 AI 챌린지를 통해 생성된 과제 중 실제 업무에 적용 가능한 우수 사례 5가지를 소개합니다. 웅진은 챌린지에서 도출된 아이디어를 각 사업부에서 검토하고 실무에 적용하며 AI 기반 업무 혁신을 추진하고 있습니다. 소개하는 사례는 웅진뿐 아니라 다양한 산업과 조직에 적용 가능한 범용적 사례를 중심으로 공유하여, 여러분의 업무 개선에도 인사이트를 제공하고자 합니다. 

참가팀 소개

웅진IT 클라우드 사업부에 소속된 저희는 다양한 IT서비스의 클라우드 인프라를 운영하면서, “이 작업 매번 반복하는데 자동화할 수 없을까?” 하는 고민을 자주 했습니다.

특히 장애 모니터링이나 실적 보고 같은 반복 업무에 시간을 많이 쓰다 보니, 정작 중요한 개선 작업에 집중하기 어려웠어요. 이번 AI 챌린지를 계기로 실제 현장에서 겪는 문제를 AI로 어떻게 해결할 수 있을지 직접 실험해보고, 그 과정과 결과를 공유하게 되었습니다. 

프로젝트 배경

클라우드 인프라가 복잡해지면서 장애 대응과 관제의 중요성이 커지고 있습니다. 기존 관제 체계는 알람 확인 및 전달을 관제원이 수작업으로 처리하고, 장애 이력 조회가 어려워 대응 시간이 지연되는 경우가 다수 발생합니다. 뿐만 아니라 24시간 관제를 위한 인력 유지로 비용 부담까지 발생하고 있습니다.

이러한 배경에서 반복적인 모니터링과 초기 장애 이력 조회를 자동화하여 인프라 운영 담당자가 핵심 업무에 집중할 수 있도록 프로젝트를 구성하였습니다. 구체적으로는 Amazon Connect로 AI가 알람을 수행하고, Bedrock 기반 LLM을 통해 장애 이력 조회 및 분석을 지원하며, Amazon Q를 통해 자연어 기반 명령을 제공하는 프로젝트를 기획하게 되었습니다.

클라우드 인프라 관제를 자동화 – Watch 119

“기존 관제 알림의 한계를 극복하라!”

  1. 높은 인건비: 새벽에 발생하는 인프라 관제 알림에 대해 사람이 직접 새벽 내내 모니터링하며 알림 발생 시 직접 전화 거는 방식
  2. 빈번한 리소스 알림: 매일 CPU, 메모리, 저장장치 알람이 하루에도 수십 건 발생하는데 이에 대한 일관된 대처 이력 관리 부재
  1. 비효율적인 프로세스: 대응, 기록, 보고까지 자동화 없이 사람이 모두 직접 처리하는 비효율적인 기존 프로세스

<Pic2: Watch119>

전체 아키텍처 개요

<Pic3: 이벤트를 Amazon Connect를 통해 음성 발신 및 상담내용 AI 기반 레포트 생성>

시스템 구성

  1. 장애 이벤트 수신 및 자동 발신
    Slack에서 전달된 알람 이벤트를 Amazon API Gateway를 통해 AWS Lambda 함수에서 알람 이벤트를 파싱하고, Amazon Connect를 통해 담당자에게 자동 음성호 발신합니다.

<Pic4: Amazon Connect 관제 – 자동 발신>

  1. Amazon Connect Contact flow구성
  • 장애 보고서 생성 트리거: Amazon DynamoDB에 저장된 통화 이력, 담당자 응답 여부를 통해 주간 및 월간 보고서를 자동 생성
  • 통화 음성을 STT 변환: Connect 통화 녹취 파일은 S3에 저장되며, 오픈소스를 활용하여 음성을 텍스트로 변환
  • AI 기반 응답 제공: Amazon Lex가 자연어 질의를 처리하고, Amazon Q와 Amazon Bedrock을 활용하여 통화 내용을 분석하고, 장애 대응 가이드를 제공

주요기능

  1. Amazon Connect를 사용한 관제 알림 자동화
    기존 관제는 사람의 모니터링에 의존해 관제 알림이 발생하면 사람이 직접 전화를 발신하는 방식이었는데, 이벤트 정보 수집을 통해 Amazon Connect를 통해 담당자에게 음성 발신을 자동화를 제공한다.
  1. Lex 음성봇을 사용한 사용자의 음성 문의 처리
    Amazon Connect와 통합되어 제공되는 Amazon Lex음성봇을 통해 사용자가 문의하고 싶은 내용을 음성으로 문의하면, Lex 음성봇이 이해하고 적절한 의도로 분기한다.

<Pic5: Amazon Lex 음성봇을 활용한 이벤트 대응>

1) 과거 대처 이력

이전 리소스 대처 이력을Amazon Knowledgebases를 구성하여 저장하여 사용자 발화문을 분석해서 검색한다. 확인된 내용은 Amazon Bedrock Nova Pro 모델을 활용하여 응답을 생성해서 사용자에게 전달된다.

<Pic6: Knowledge bases 활용한 발화문 검색 및 답변 생성>

2) 서버 재기동

서버 재기동을 실행하기 전에 담당자의 인증을 통한 비밀번호를 DTMF로 전송하고, 인증이 정상적으로 되면 Amazon Q Developer CLI 에이전트를 통해서 재기동을 진행한다.

<Pic7: Amazon Q Developer CLI를 홀용한 AWS 서비스 운영>

  1. 관리자 콘솔 제공 및 장애 보고서 자동 생성
    이전에는 담당자가 장애 보고서에 알림 메시지와 대응 방법을 작성해서 보고했었으나, Watch 119에서는 이를 자동화하여 전화 종료 즉시 전화 내용을 텍스트화하여 장애 보고서를 자동 생성합니다.

<Pic8: Amazon Connect통화 음성을 텍스(STT) 변환 화면>

<Pic9: 장애 발생 시, 자동으로 생성된 장애 보고서 화면>

기대 효과

본 프로젝트는 모니터링 및 알림 자동화로 장애 감지부터 조치까지의 리드 타임을 획기적으로 단축합니다. 실시간 자동 알림 체계를 통해 신속한 초동 대응이 가능해지며, 서비스 안정성이 크게 향상됩니다. 단순 반복 업무 자동화로 운영 인력을 전략적 개선 활동에 집중시킬 수 있으며, AI 기반 과거 사례 검색을 통해 담당자 경험에 의존하던 방식을 표준화된 대응 프로세스로 전환합니다. 자동 수집된 데이터 기반의 장애 패턴 분석으로 반복 문제를 사전 파악하고, 선제적 개선을 통해 장애 발생 자체를 줄여나갈 수 있습니다.

결론

본 시스템은 24시간 관제 인력 없이도 안정적인 인프라 운영을 가능하게 하는 자동화 솔루션입니다. AI 기반 알림과 과거 이력 검색으로 대응 속도와 품질을 동시에 향상시키며, 클라우드 인프라를 운영하는 금융, 제조, 유통 등 다양한 산업군에 즉시 적용 가능합니다. 담당자는 반복 업무에서 벗어나 핵심 개선 활동에 집중할 수 있으며, 이는 인프라 관제의 새로운 표준을 제시하는 시도입니다.

 


시리즈 바로 가기

 

장유정

장유정

장유정 개발자는 웅진 클라우드 전략고객팀에서 시스템 개발과 DevOps 업무를 담당하고 있습니다. 생성형 AI를 활용한 솔루션을 개발하며 AWS 클라우드를 기반으로 고객의 목표를 기술로 실현하는 역할을 하고 있습니다. 새로운 기술과 도전을 두려워하지 않으며, 혁신을 통해 더 나은 고객 경험을 만들어가는 것을 목표로 합니다.

권순찬

권순찬

권순찬 SA(Solutions Architect)는 웅진 서비스팀에서 클라우드 아키텍처를 설계·운영하며, 안정적이고 효율적인 인프라 환경 구축을 담당하고 있습니다. AWS 클라우드를 비롯한 다양한 클라우드 기술에 꾸준히 관심을 가지고 있으며, 특히 서비스 신뢰성 중심의 클라우드 운영을 지향하며 클라우드를 통해 고객 서비스의 신뢰성과 혁신을 실현하는 아키텍처를 만들어가고 있습니다.

권성호

권성호

권성호 개발자는 웅진 클라우드서비스팀에서 대외 고객사의 그룹웨어 시스템 유지보수와 신규 기능 개발을 담당하고 있습니다. 다양한 고객 환경에 대응하며 안정적인 서비스를 제공하고 있으며, 업무 효율성과 사용자 편의성을 높이기 위한 기능 개선과 시스템 고도화를 지속적으로 수행하고 있습니다. 또한 외부 솔루션과의 연계를 통해 그룹웨어의 활용 범위를 확장하고, 고객 비즈니스 운영 환경을 보다 효율적으로 지운하고 있습니다.

조민경

조민경

조민경 SA(Solutions Architect)는 웅진 클라우드전략고객팀에서 고객의 비즈니스 요구를 충족하기 위해 AWS 기반 솔루션을 설계하고 운영하는 역할을 맡고 있습니다. 새로운 기술을 서비스에 적용해 효율성과 경쟁력을 강화하며, 안정적이고 확장 가능한 클라우드 아키텍처를 구축하고 최적화하는 역할을 수행하고 있습니다.

Jaeyoung Ha

Jaeyoung Ha

하재영 솔루션즈 아키텍트는 소프트웨어 개발자 및 소프트웨어 아키텍트의 경험을 바탕으로 엔터프라이즈 고객을 대상으로 클라우드 마이그레이션과 모더나이제이션을 담당하고 있으며 최적의 아키텍처 설계를 구성하는 역할을 수행하고 있습니다.

Yongduck Hong

Yongduck Hong

홍용덕 Sr. Account Manager는 다양한 인더스트리의 고객과 협업하며 여러 프로젝트를 성공적으로 수행해왔습니다. 그간의 경험을 바탕으로 엔터프라이즈 고객들이 클라우드를 통해 제품·서비스 혁신에 집중할 수 있도록, 고객들이 직면한 과제들을 해결하고 디지털 트랜스포메이션 여정을 함께합니다.