AWS 기술 블로그
Category: Amazon Elastic Kubernetes Service
딜라이트룸의 ‘Amazon EKS Auto Mode’를 활용한 멀티 클러스터 운영 효율화 사례
딜라이트룸은 글로벌 누적 다운로드 1억 건을 돌파한 수면·기상 솔루션 Alarmy와 B2B 광고 수익화 플랫폼 DARO를 운영하고 있습니다. 최근에는 앱 인수를 통해 사업 영역을 확장하고 있습니다. 2025년 매출 460억 원, 영업이익 200억 원을 기록한 딜라이트룸은 매출 대부분이 해외에서 발생하는 글로벌 중심 기업입니다. Figure 1: 딜라이트룸 소개 앱 인수를 통한 사업 확장은 곧 인프라의 확장을 의미합니다. 새로운 […]
Amazon EKS에서 운영하는 자체 관리형 Agentic AI 플랫폼 : 인프라 자동화와 관측성으로 운영 안정성 확보하기
서론 많은 기업이 LLM 기반 에이전틱 워크플로우를 실제 업무에 투입하고 있습니다. 그러나 프로덕션 규모로 확대하면 단일 거대 LLM에 모든 호출을 의존하는 방식의 한계가 드러납니다. 에이전트 내부에서 발생하는 도구 분류·요약·포맷팅 등 매 단계마다 동일한 토큰 과금이 누적되고, 거대 모델의 긴 응답 지연(TTFT)은 실시간 대화에 부적합합니다. 요금 계산이나 약관 검증처럼 정확성이 요구되는 업무에서 환각(hallucination)은 비즈니스 리스크가 되며, […]
Config의 Amazon EKS Spot 기반 대규모 RFM 데이터 파이프라인 구축
소개 Config는 General-Purpose Robot Foundation Model을 실현하기 위한 데이터 인프라와 기술을 구축하는 기업입니다. 다양한 실제 환경에서 로봇이 양손 조작 작업을 안정적으로 수행할 수 있도록, 대규모 학습 데이터의 수집부터 전처리, 모델 학습, 실환경 검증까지 이어지는 end-to-end 파이프라인을 운영하고 있습니다. 현재까지 약 10만 시간 규모의 액션 데이터를 구축했으며, 월 약 2만 시간의 데이터를 지속적으로 수집하고 있습니다. 이미지 […]
NVIDIA와 함께 AWS에서 자율주행 3.0을 위한 End-to-End Physical AI 데이터 파이프라인 구축하기
본 블로그는 Olivier Sutter, Geoff Van Natter, Mikhail Yurasov, Amrith Prabhu, Steven DeVries, Wonsik Han이 작성한 Building an End-to-End Physical AI Data Pipeline for Autonomous Vehicle 3.0 on AWS with NVIDIA를 번역, 편집하였으며, 이해를 돕기 위해 Note를 추가했습니다. 도입 자율주행(AV) 개발은 아키텍처 관점에서 명확한 세대 전환이 진행 중입니다. AV 1.0: 인지(Perception), 예측(Prediction), 계획(Planning), 제어(Control)로 이어지는 […]
Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기
이번 포스팅은 삼성전자 서비스의 핵심, 삼성계정 서비스에서 서비스 운영에 실질적인 문제를 해결하는데 GenAI를 어떻게 활용하는지 소개하는 2부작 시리즈 포스팅입니다. 사례가 AWS 기술블로그를 통해 세상에 알려질 수 있게 도움주신 모든 분들에게 감사의 마음을 전합니다. Part 1: 삼성계정 서비스의 AI SecOps – Multi-Agent로 진화하는 보안 위협 탐지 Part 2: Agentic AIOps – Multi-Agent 시스템으로 Root Cause Analysis […]
Agent 로 최적화 하는 EKS 운영: AWS DevOps Agent + K8s Operator로 MTTR 줄이기
Amazon Elastic Kubernetes Service(Amazon EKS) 환경에서 워크로드를 운영하다 보면, Pod의 OOMKilled 종료나 IP 고갈로 인한 생성 실패 등 다양한 장애 상황에 직면하게 됩니다. 이러한 장애가 발생하면 엔지니어는 Pod 로그 수집부터 Kubernetes Events 추적, 노드 시스템 로그 확인까지 반복적이고 시간 소모적인 트러블슈팅 과정을 거쳐야 합니다. 특히 야간이나 주말에는 대응 시간이 길어지고, Pod 삭제나 노드 이상으로 인해 […]
AWS에서 NVIDIA Cosmos 월드 파운데이션 모델 실행하기
본 게시글은 “Running NVIDIA Cosmos world foundation models on AWS by Abhishek Srivastav, Brett Hamilton, Diego Garzon, Jathavan Sriram, and Shaun Kirby“를 번역한 글입니다. 자율주행 차량, 로봇공학, 스마트 팩토리를 위한 Physical AI 시스템을 개발하고 있다면, 충분한 양의 고품질 학습 데이터를 확보하는 것이 핵심 과제일 것입니다. 이 블로그에서는 NVIDIA Cosmos™ 월드 파운데이션 모델(WFM)을 Amazon Web Services(AWS)에 […]
메리츠증권의 AWS 클라우드 여정: 클라우드 기반 차세대 증권 플랫폼 설계
메리츠증권 소개 메리츠증권은 리테일 비즈니스 경쟁력 강화를 목표로, 기존 트레이딩 시스템의 고도화가 아닌 차세대 증권 플랫폼을 새롭게 설계하고 구축했습니다. 차세대 플랫폼은 단순한 증권 트레이딩 시스템을 넘어, 투자자 간의 상호작용과 정보 교류가 이루어지는 커뮤니티 중심 서비스를 함께 제공하는 것을 목표로 했습니다. 이러한 서비스 특성상, 사용자 참여가 확대될수록 트래픽 패턴이 예측하기 어려워지고, 시세 데이터와 커뮤니티 이벤트가 동시에 […]
Amazon EKS에서 Friendli Container로 LLM 추론 최적화하기
FriendliAI는 AI 추론 효율을 크게 개선하는 고성능 서빙 플랫폼을 서비스하는 기업입니다. FriendliAI의 추론 스택은 높은 처리량(Throughput)과 비용 절감 효과를 통해 기업이 생성형 AI 서비스를 효율적으로 운영할 수 있도록 지원합니다. Figure 1: Friendli Container 개념도 Friendli Container Amazon EKS Add-on은 AWS 인프라를 기반으로 AI 추론 효율을 극대화하는 솔루션입니다. 이 Add-on을 활용하면 기존 Amazon EKS 워크플로우에 Friendli […]
Amazon SageMaker HyperPod의 오토스케일링 알아보기
이 글은 Artificial Intelligence 블로그에 게시된 글 (Introducing auto scaling on Amazon SageMaker HyperPod)을 한국어로 번역 및 편집하였습니다. 2025년 8월에 Amazon SageMaker HyperPod가 Karpenter를 통한 관리형 노드 오토스케일링 지원하기 시작했습니다. 이를 통해 추론 및 학습 요구 사항에 맞춰 SageMaker HyperPod 클러스터를 효율적으로 확장할 수 있습니다. 실시간 추론 워크로드는 예측 불가능한 트래픽 패턴에 대응하고 서비스 수준 계약(SLA)을 유지하기 […]








