롯데쇼핑의 Amazon Bedrock 기반 AI운영 어시스턴트 구축 사례

본 글은 지난 2월 AWS 기술블로그(https://aws.amazon.com/ko/blogs/tech/generative-ai-incident-response-knowledge-base/)의 아키텍처를 기반으로 롯데쇼핑의 운영 환경에 맞춰 고도화한 프로젝트 사례를 소개합니다.

도입배경

롯데쇼핑은 롯데온을 중심으로 다양한 온라인 쇼핑 플랫폼을 운영하며, 3,900만 명의 롯데멤버스 회원 기반과 연간 8조원 이상의 거래액을 기록하는 국내 대표 이커머스 기업입니다. 특히 블랙프라이데이나 뷰세라(뷰티 세일 라인업) 같은 대규모 프로모션 기간에는 평소 대비 수배에 달하는 트래픽이 집중되며, 이를 안정적으로 처리하는 것이 핵심 과제였습니다.

롯데온은 지난 5년간 급격한 기술적 진화를 거쳤습니다. 상품 관리부터 주문 처리, 결제, 배송, 고객 서비스에 이르기까지 각 도메인을 담당하는 마이크로서비스들이 AWS 클라우드 위에서 운영되고 있으며, 내부 ERP 시스템과 물류센터의 WMS(창고관리시스템)는 물론 수십 개 외부 파트너사 시스템과 실시간으로 긴밀하게 연동되어 있습니다.

하지만 24시간 무중단 서비스를 유지하면서 운영 복잡도는 지속적으로 증가했습니다. TechOps팀, 개발팀, 보안팀, 데이터팀 등 여러 조직이 협업해야 하는 구조에서, 각 팀이 서로 다른 도구와 프로세스를 사용하다 보니 신속한 의사결정과 대응에 병목이 발생했습니다. 이는 단순한 운영 효율성의 문제를 넘어, 비즈니스 민첩성에 직접적인 영향을 미치는 요소로 작용했습니다.

마주한 세 가지 과제

롯데쇼핑 운영팀이 직면한 가장 큰 과제는 크게 세 가지로 요약됩니다.

1. 복잡한 장애 대응 프로세스

주말 새벽 3시, 결제 서비스에 장애가 발생하면 온 콜 엔지니어는 Amazon CloudWatch 알람을 받고 즉시 대응에 나서지만, 수십 개의 마이크로서비스로 구성된 환경에서 근본 원인을 찾아내는 것은 결코 쉽지 않았습니다. Amazon API Gateway 로그, Amazon EKS 컨테이너 상태, Amazon RDS 성능 메트릭, AWS Lambda 에러 로그를 각각 확인하며 문제의 시작점을 추적하는 데만 30분 이상이 소요되곤 했습니다. 이는 고객 경험에 직접적인 영향을 미치는 치명적인 시간 손실이었습니다.

2. 알람 피로도(Alert Fatigue)

운영팀은 하루 평균 수 십에서 백 건 이상의 알람을 받았습니다. 대부분은 일시적인 CPU 스파이크나 네트워크 지연처럼 자동 복구되는 이슈였지만, 그 속에 숨어 있는 진짜 중요한 알람을 놓치지 않기 위해서는 모든 알람을 검토해야 했습니다. 더욱이 신규 서비스 배포 시 적절한 알람 임계 값 설정이나, 주말 트래픽 패턴에 최적화된 Auto Scaling 정책 수립 같은 의사결정은 경험에 의존할 수밖에 없었습니다.

3. 분산된 운영 지식

장애 대응 매뉴얼은 Atlassian Confluence, 아키텍처 문서는 Wiki, 그리고 베테랑 엔지니어들의 실전 노하우는 Slack 스레드 곳곳에 흩어져 있었습니다. 이러한 지식의 파편화는 신입 엔지니어의 온 보딩을 어렵게 만들었을 뿐만 아니라, 동일한 문제를 반복적으로 해결하는 비효율을 초래했습니다. 조직의 집단 지성이 체계적으로 축적되지 못하는 구조적 한계였습니다.

Amazon Bedrock으로 찾은 해법

롯데쇼핑은 이러한 운영 과제를 근본적으로 해결하기 위해 Amazon Bedrock 기반의 AI 운영 어시스턴트 구축을 결정했습니다. “Tech Assistant”로 명명된 이 시스템은 단순한 챗봇 수준을 넘어, 실제 운영 환경에서 엔지니어의 의사결정을 지원하고 업무 효율성을 극대화할 수 있는 지능형 운영 플랫폼을 지향했습니다. 그 목표는 다음과 같습니다.

운영 효율성 극대화: 반복적인 기술 문의에 대해 AI 기반 자동 응답을 제공함으로써 운영팀의 리소스를 절감하고, 엔지니어들이 보다 전략적이고 창의적인 업무에 집중할 수 있는 환경을 조성
즉각적인 접근성 확보: 사내 커뮤니케이션 허브인 Slack과의 네이티브 연동을 통해 별도의 도구 전환 없이 자연스러운 업무흐름 속에서 기술 지원을 받을 수 있도록 하여, IT 운영의 효율성을 높이고 조직 내 기술 문화 혁신을 촉진
통합 지식 플랫폼 구축: 여러 시스템에 분산되어 있던 기술 문서, 운영 가이드, 장애 대응 매뉴얼을 하나의 지능형 플랫폼으로 통합하여, 롯데온 내부의 전문 지식에 대한 접근성을 획기적으로 개선하고 조직의 집단 지성을 체계적으로 축적
지속적인 진화: 실제 사용 패턴과 피드백을 지속적으로 학습하고 반영하여, 시간이 지날수록 더욱 정교하고 사용자 친화적인 서비스로 발전

전체 아키텍처

Tech Assistant는 운영팀의 실제 워크플로우에 자연스럽게 통합될 수 있도록 설계되었으며, 아키텍처는 세 가지 핵심 컴포넌트로 구성됩니다.

1. 사용자 인터페이스 계층

운영팀이 이미 일상적으로 사용하는 도구와의 원활한 통합을 최우선으로 설계했습니다. Slack을 주요 인터페이스로 채택하여, 24/7 운영팀과 기술팀이 별도의 학습을 하지 않고 자연스럽게 AI 어시스턴트와 상호작용할 수 있도록 했습니다. 또한 모니터링 시스템과의 실시간 연동을 통해 알람 발생 시 자동으로 분석을 시작하고, ATLASSIAN JIRA와의 통합으로 티켓 생성까지 seamless하게 지원합니다.

2. 요청 처리 및 라우팅 계층

Amazon API Gateway와 AWS Lambda를 통해 Slack에서 유입되는 요청을 실시간으로 처리합니다. AWS Lambda 함수는 사용자 질문의 의도와 컨텍스트를 파악하여 최적의 처리 경로로 지능적으로 라우팅합니다.

정보 조회 요청: Amazon Bedrock Knowledge Bases를 통해 관련 문서를 검색하고, Anthropic Claude 모델을 활용하여 맥락에 맞는 답변을 생성
장애 분석 요청: 관련 로그 및 메트릭을 자동으로 수집한 후, Amazon Bedrock을 통해 종합 분석을 수행하고 RCA(RootCause Analysis) 보고서를 생성
업무 요청: Atlassian JIRA API 연동을 통해 티켓을 자동으로 생성하고 적절한 담당자에게 할당

3. AI 에이전트 및 지식 기반 레이어

시스템의 핵심은 AI 에이전트입니다. 여기서 사용된 Amazon Bedrock Agents는 사용자의 질문을 심층적으로 이해하고, 상황에 따라 필요한 도구들을 선택적으로 실행하며, 수집된 정보를 종합하여 정확하고 실행 가능한 답변을 생성합니다.

지식 기반은 두 가지 전략적 접근 방식으로 구축되었습니다.

첫째, 정적 지식의 체계적 통합입니다. Amazon Bedrock Knowledge Bases를 활용하여 Atlassian Confluence, Wiki, AWS 공식 문서 등 기존 운영 문서를 수집하고, 이를 벡터 임베딩으로 변환했습니다. 임베딩 모델로는 Amazon Titan Embeddings를 채택했으며, 각 문서는 512토큰 단위로 청킹하고 20% 오버랩을 적용하여 문맥의 연속성을 보장했습니다. 생성된 임베딩은 Amazon OpenSearch Serverless 벡터 엔진에 저장되어 밀리초 단위의 고속 시맨틱 검색을 지원합니다.

둘째, 동적 지식의 지속적 학습입니다. 실시간으로 발생하는 장애 이력, 해결 방법, Slack 대화 내역 등 실전 운영 경험은 Amazon S3에 자동으로 축적되며, Amazon Knowledge Bases와 주기적으로 동기화됩니다. 이를 통해 조직의 최신 운영 노하우가 지속적으로 학습되고 진화하는 살아있는 지식 생태계를 구현했습니다.

RAG 파이프라인

예를 들어 “최근 비슷한 장애가 있었나요?”라는 질문을 받으면, 시스템은 RAG(Retrieval Augmented Generation) 방식으로 다음과 같이 동작합니다:

질문 벡터화: 사용자 질문을 Amazon Titan Embeddings를 통해 벡터로 변환
유사도 기반 검색: Amazon OpenSearch Serverless에서 코사인 유사도 기반 Top-K 검색(K=5)을 수행하여 가장 관련성 높은 문서를 추출
컨텍스트 구성: 검색된 문서들을 컨텍스트로 구성하여 Anthropic Claude 모델에 전달
지능형 답변 생성: Anthropic Claude 모델이 제공된 컨텍스트를 기반으로 정확하고 맥락에 맞는 답변을 생성

주요 기능

1. 기술 문의 및 업무 요청

Tech Assistant를 통한 기술 지원은 매우 직관적입니다. Slack 채널에서 질문을 입력하면 실시간으로 답변을 받을 수 있으며, 복잡하거나 심층적인 분석이 필요한 요청의 경우 자동으로JIRA 티켓을 생성하여 적절한 담당자에게 할당됩니다. Slack Bot API를 통한 실시간 메시지 처리로 평균 응답 시간은 3~5초 이내를 유지하며, 이는 기존 수동 프로세스 대비 획기적인 개선입니다.

2. 실시간 분석 및 레포트 생성

특히 주목할 만한 기능은 AI 기반 장애 분석 자동화입니다. 모니터링 시스템에서 알람이 발생하면, 에이전트는 즉시 다음과 같은 프로세스를 자동으로 수행합니다:

데이터 수집(장애와 관련된 로그 및 성능 메트릭을 실시간으로 수집) → 변경 이력 추적(최근 배포 이력과 인프라 설정 변경사항을 추적하여 잠재적 원인을 파악) → 패턴 분석(지식 저장소에서 과거 유사 장애 사례를 검색하고, 서비스 간 의존성을 분석하여 영향 범위를 평가) → 즉각 대응(종합 분석 결과와 권장 조치 사항을 Slack을 통해 실시간으로 운영팀에 전달)

더 나아가, 이슈가 해결된 후에는 전체 장애 대응 과정을 분석하고 요약하여 종합 RCA(Root Cause Analysis) 보고서를 자동으로 생성합니다. 이 보고서는 지식 저장소에 저장되어 향후 유사 장애 발생 시 더욱 신속한 대응을 가능하게 하는 학습 자산으로 활용됩니다.

성과

AI 운영 어시스턴트 도입 3개월 후 측정한 결과는 기대 이상이었습니다.

장애 대응 시간의 획기적인 단축: 평균 장애 대응 시간이 크게 감소했으며, 특히 새벽 시간대 장애의 경우 관련 로그, 메트릭, 유사 사례 등 모든 정보가 수분 내에 자동으로 정리되어 제공됩니다. 이는 온 콜 엔지니어의 부담을 대폭 경감시키는 동시에 고객 영향을 최소화하는 데 기여했습니다.

알람 피로도의 실질적 해소: 운영팀이 실제로 대응해야 하는 중요 알람만 선별적으로 전달되면서, 불필요한 알람 처리 부담이 대폭 감소했습니다. 이를 통해 엔지니어들은 보다 전략적이고 가치 있는 업무에 집중할 수 있게 되었습니다.

조직 간 협업 효율성 향상: 개발팀, 보안팀 등 다른 팀에 질문하고 답변을 기다리는 대신, Tech Assistant를 통해 즉시 필요한 정보를 얻을 수 있게 되면서 업무 처리 속도가 상당히 개선되었습니다. 기존에는 담당 엔지니어를 찾아 일일이 확인해야 했던 정보들을 이제는 AI 어시스턴트를 통해 스스로 파악하고 해결할 수 있습니다. “배포 프로세스가 어떻게 되나요?” 같은 기본적인 질문부터 “프로모션 기간에 데이터베이스 부하를 어떻게 관리하나요?” 같은 심화 질문까지, AI 어시스턴트는 축적된 과거 경험과 문서를 기반으로 정확한 답변을 제공합니다.

마무리

롯데쇼핑의 통합 이커머스 플랫폼인 롯데온에 도입된 AI 운영 어시스턴트는 운영 효율성 측면에서 혁신적인 성과를 달성했습니다. Amazon Bedrock 기반의 Tech Assistant는 단순히 도구를 추가한 것을 넘어, 운영팀의 업무 방식 자체를 근본적으로 변화시켰습니다. 반복적이고 시간 소모적인 업무에서 벗어나 엔지니어들은 이제 시스템 아키텍처 개선, 성능 최적화, 새로운 기술 도입 등 보다 전략적이고 창의적인 과제에 집중할 수 있게 되었습니다.

더욱 중요한 것은 이 시스템이 정적인 솔루션이 아니라는 점입니다. 매일 발생하는 장애 대응 경험, 엔지니어들의 질문과 답변, 새로운 운영 노하우가 지속적으로 축적되면서 시스템은 날마다 더 똑똑해지고 있습니다. 이는 조직의 집단 지성이 체계적으로 성장하는 선순환 구조를 만들어냅니다.

“생성형 AI의 실전 적용 가능성”

이 사례는 Amazon Bedrock과 생성형 AI 기술이 이제 단순한 실험이나 PoC(Proof of Concept) 단계를 넘어, 실제 프로덕션 환경에서 측정이 가능한 업무 효율성 가치를 빠르게 창출하는 기술임을 입증하고 있습니다. 특히 24/7 무중단 운영이 필수적인 대규모 이커머스 환경에서도 안정적으로 작동하며, 운영팀의 신뢰를 얻었다는 점이 주목할 만합니다.

만약 여러분의 조직도 복잡한 시스템 운영, 분산된 지식 관리, 장애 대응 부담 등 유사한 과제를 겪고 있다면, 작은 Use Case부터 시작해 보시 길 권장 해드립니다. 특정 팀의 FAQ 자동화나 단일 서비스의 로그 분석 같은 제한된 범위에서 시작한 작은 성공이 조직의 신뢰를 구축하고, 이는 자연스럽게 더 큰 규모의 AI 전환으로 이어질 것입니다.

AWS 기술 블로그