AWS 기술 블로그

Amazon EKS에서 NVIDIA OSMO 기반 Physical AI 워크플로 운영하기

Physical AI를 위한 모델 개발 과정은 일반적으로 데이터 수집, 시뮬레이션, 정책 학습, 엣지 배포가 반복되는 긴 라이프사이클을 갖습니다. 또한, 각 단계는 서로 다른 컴퓨팅, 스토리지, 모니터링에 대한 요구사항을 갖습니다. PoC 단계에서는 단일 GPU 인스턴스에서 학습을 실행하는 것만으로도 충분할 수 있지만, 여러 데이터셋과 모델 버전으로 같은 워크플로를 반복 실행하려면 실행 환경, 아티팩트 보존, 관찰 가능성, 보안, […]

AWS Unified Operations: 주요 핵심 워크로드를 위한 복원력 있는 운영 구축

AWS Unified Operations를 통한 대규모 핵심 워크로드의 복원력 확보 – 고가용성, 빠른 마이그레이션, 신속한 인시던트 해결을 위한 AWS 최고 등급 지원 Shift-Left 패러다임: 사후 대응에서 사전 예방으로 주요 핵심 워크로드를 운영하는 조직들은 복원력을 약화시키고, 클라우드 도입을 늦추는 세 가지 중요한 구조적 문제점에 직면해 있습니다. 첫 번째 약점은 역량 부족(Skills gaps)입니다. 클라우드 네이티브 아키텍처 전문 인력은 시장에서 구하기 […]

Amazon GameLift Servers DDoS Protection 기능으로 플레이어 상시 보호

이 글은 AWS for Games Blog에 게시된 Introducing Amazon Gamelift Servers DDOS Protection by Adam Chernick, Dan Green, Liam McCreith, Mark Choi, Michael Morris, and Brian Schuster을 한국어 번역 및 편집하였습니다. 멀티플레이어 게임은 분산 서비스 거부(DDoS) 공격의 가장 주요한 표적 중 하나입니다. e스포츠 대회, 게임 출시 주말, 인기 스트리머의 라이브 방송 등 주목도가 높은 순간을 […]

Amazon SageMaker Unified Studio에서 Cross-Account Amazon Redshift Data Sharing 거버넌스 패턴 검증

도입 배경 소스 컴퓨트를 격리하면서 다른 계정이 Redshift로 쿼리하게 만들 수 있을까요? 한국 대형 리테일 그룹의 데이터 플랫폼 통합 프로젝트에서 맞닥뜨린 질문입니다. 자회사별로 Amazon Redshift와 ML 워크로드가 분리 운영되어 그룹 차원의 통합 분석과 AI/ML 활용에 사일로가 발생하던 환경이었고, SageMaker Unified Studio(이하 SMUS)로 그룹 단위 거버넌스를 통합해야 하지만, 동시에 각 자회사의 데이터 소스 컴퓨트는 다른 자회사 […]

AWS DevOps Agent와 Custom MCP 서버를 활용한 HYBE의 인시던트 자동 조사 체계 구축 사례

1. HYBE 인프라운영팀 소개 하이브(HYBE)는 글로벌 엔터테인먼트 기업으로, 사내 시스템부터 B2C 서비스까지 다양한 워크로드를 AWS 위에서 운영하고 있습니다. 인프라운영팀은 다중 AWS 계정과 EKS 클러스터에 걸쳐 다수의 서비스를 효율적인 인력 구성으로 운영합니다. 모니터링은 Datadog, 소스 코드는 GitLab, 이슈 관리는 Jira를 사용하고 있습니다. 2. 개요 새벽 3시, Slack 알림과 함께 온콜 담당자의 전화가 울립니다. Datadog Error Tracking에서 […]

RIMAN KOREA의 Amazon Bedrock Knowledge Bases를 활용한 자연어 기반 상품 검색 시스템 구축기

RIMAN KOREA 소개 RIMAN KOREA는 2018년 설립된 K-뷰티 글로벌 다이렉트 셀링 기업입니다. 자이언트 병풀, 제주 용암해수 등 독자 원료를 기반으로 고기능성 스킨케어(ICD), 비건 뷰티(보타랩), 건강기능식품(라이프닝)을 주력 제품으로 합니다. 리만코리아의 E-Commerce 팀은 운영 중인 온라인 자사몰(이하 리만몰)을 고도화하기 위해 사용자로부터 접수된 문의 내역을 분석하였습니다. 그 결과 상품 검색이 어렵다는 문제를 발견하였습니다. 기존 시스템은 상품명 기반의 키워드 […]

분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – 분산 트레이닝을 위해 알아야 할 GPU 간 고속 통신 기술

대규모 분산 훈련에서 GPU 간 통신 성능은 전체 훈련 효율을 좌우하는 핵심 요소입니다. 수백 대의 GPU가 그래디언트(gradient, 모델이 실수를 고치는 방향 지시서)를 주고받아야 하는 환경에서, 데이터가 GPU 메모리에서 네트워크를 거쳐 원격 노드의 GPU 메모리에 도달하기까지의 경로를 얼마나 효율적으로 설계하느냐가 곧 성능의 차이로 이어집니다. 이번 블로그는 이 시리즈의 마지막 편으로, AWS 인스턴스에서 활용되는 GPU 간 고속 […]

Strands와 AgentCore를 활용해 Amazon RDS for SQL Server용 에이전틱 AI 구축하기

이 글은 AWS Database Blog의 “Building agentic AI for Amazon RDS for SQL Server with Strands and AgentCore” by Sudhir Amin 게시글을 번역한 글입니다. Amazon Relational Database Service (Amazon RDS) for SQL Server 인스턴스를 관리한다면, 수년에 걸쳐 진단 스크립트들을 축적했을 것입니다. 이 스크립트들은 blocking 세션을 조회하고, 느린 프로시저를 식별하며, 디스크 공간을 모니터링하고, 인덱스 사용량을 분석합니다. […]

Part 3: Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기

이 글은 “Kiro로 RDS/Aurora 장애 분석 자동화하기” 시리즈의 세 번째 글입니다. Part 1: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기” Part 2: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기” Part 3 (해당글): “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기” 이 시리즈에서 구성하는 자동화 솔루션은 편의상 KIDA(Kiro Database Analyzer)라고 부릅니다. 이 […]

Part 2: Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기

이 글은 “Kiro로 RDS/Aurora 장애 분석 자동화하기” 시리즈의 두 번째 글입니다. Part 1: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기” Part 2 (해당글): “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기” Part 3: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기” 시리즈에서 구성하는 자동화 솔루션은 편의상 KIDA(Kiro Database Analyzer)라고 부릅니다. 이 시리즈에서는 […]