AWS 기술 블로그
분산 트레이닝 관점에서의 AWS 인터커넥트 기술 소개 – 분산 트레이닝을 위해 알아야 할 GPU 간 고속 통신 기술
대규모 분산 훈련에서 GPU 간 통신 성능은 전체 훈련 효율을 좌우하는 핵심 요소입니다. 수백 대의 GPU가 그래디언트(gradient, 모델이 실수를 고치는 방향 지시서)를 주고받아야 하는 환경에서, 데이터가 GPU 메모리에서 네트워크를 거쳐 원격 노드의 GPU 메모리에 도달하기까지의 경로를 얼마나 효율적으로 설계하느냐가 곧 성능의 차이로 이어집니다. 이번 블로그는 이 시리즈의 마지막 편으로, AWS 인스턴스에서 활용되는 GPU 간 고속 […]
Strands와 AgentCore를 활용해 Amazon RDS for SQL Server용 에이전틱 AI 구축하기
이 글은 AWS Database Blog의 “Building agentic AI for Amazon RDS for SQL Server with Strands and AgentCore” by Sudhir Amin 게시글을 번역한 글입니다. Amazon Relational Database Service (Amazon RDS) for SQL Server 인스턴스를 관리한다면, 수년에 걸쳐 진단 스크립트들을 축적했을 것입니다. 이 스크립트들은 blocking 세션을 조회하고, 느린 프로시저를 식별하며, 디스크 공간을 모니터링하고, 인덱스 사용량을 분석합니다. […]
Part 3: Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기
이 글은 “Kiro로 RDS/Aurora 장애 분석 자동화하기” 시리즈의 세 번째 글입니다. Part 1: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기” Part 2: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기” Part 3 (해당글): “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기” 이 시리즈에서 구성하는 자동화 솔루션은 편의상 KIDA(Kiro Database Analyzer)라고 부릅니다. 이 […]
Part 2: Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기
이 글은 “Kiro로 RDS/Aurora 장애 분석 자동화하기” 시리즈의 두 번째 글입니다. Part 1: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기” Part 2 (해당글): “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기” Part 3: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기” 시리즈에서 구성하는 자동화 솔루션은 편의상 KIDA(Kiro Database Analyzer)라고 부릅니다. 이 시리즈에서는 […]
Part 1: Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기
이 글은 “Kiro로 RDS/Aurora 장애 분석 자동화하기” 시리즈의 첫 번째 글입니다. Part 1 (해당글): “Kiro로 RDS/Aurora 장애 분석 자동화하기 — IDE에서 분석하기” Part 2: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 터미널에서 분석하기” Part 3: “Kiro로 RDS/Aurora 장애 분석 자동화하기 — 매일 자동으로 보고서 받기” 이 시리즈에서는 Kiro와 MCP(Model Context Protocol) 서버를 활용하여, 버튼 하나로 Amazon […]
Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기
최근 많은 기업들이 자체 LLM을 구축하거나, 오픈소스 sLLM(Small Large Language Model)을 활용하여 설치형 LLM서비스를 구성하려는 수요가 크게 증가하고 있습니다. 그런데 실제로 배포하려는 모델을 살펴보면, Llama 3 70B, Qwen 72B, EXAONE 3.5 32B 등 모델을 GPU에 로드할 때 필요한 메모리가 40GB에서 최대 150GB에 달하는 경우가 많아, GPU 메모리가 80GB인 H100/H200이 탑재된 Amazon P5 인스턴스 이상을 요청하는 […]
GraphRAG Toolkit으로 지식 그래프 쿼리하기
시리즈 안내 이 글은 3편으로 기획된 GraphRAG Toolkit 시리즈의 3번째 글입니다. 시리즈의 첫 번째 글인 Neptune GraphRAG Toolkit을 활용하여 정교한 비정형 데이터 검색하기에서는 비정형 데이터에서 벡터 임베딩이 포함된 그래프를 자동으로 구축하고, 구조적으로 관련된 정보를 검색하는 질의응답 전략 프레임워크를 소개했습니다. 두 번째 글인 GraphRAG Toolkit으로 지식 그래프 인덱싱하기에서는 해당 toolkit을 활용하여 지식 그래프를 단계별로 인덱싱하는 과정을 […]
현대오토에버의 Amazon Bedrock으로 구축한 빅데이터 클러스터 장애 대응 자동화 에이전트 구축기
이 글은 현대오토에버의 GenAI Sandbox 활용 생산성 향상 해커톤 시리즈의 세번째 글이며, 현대오토에버의 오명우, 정세종님과 함께 작성하였습니다. 첫 번째 글에서는 현대오토에버와 AWS가 GenAI Sandbox를 활용해 어떻게 생산성 향상 해커톤을 기획하고 운영했는지, 그리고 14개 팀 150여 명이 참여한 이 행사의 전반적인 성과를 소개 했습니다. 두 번째 글에서는 Amazon Bedrock과 LangGraph를 활용해 어떻게 다중 AI 에이전트 기반 […]
현대오토에버의 Amazon Bedrock으로 구축한 다중 AI 에이전트: 장애 대응 시간 5분으로 단축하기
이 글은 현대오토에버의 GenAI Sandbox 활용 생산성 향상 해커톤 시리즈의 두 번째 글이며, 현대오토에버의 김만철, 최라윤님과 함께 작성하였습니다. 첫 번째 글에서는 현대오토에버와 AWS가 GenAI Sandbox를 활용해 어떻게 생산성 향상 해커톤을 기획하고 운영했는지, 그리고 14개 팀 150여 명이 참여한 이 행사의 전반적인 성과를 소개했습니다. 이번 글에서는 해커톤 수상 팀 중 하나인 ErrorWatcher 팀이 AWS에서 LangGraph와 Claude를 […]
현대오토에버의 GenAI Sandbox 활용 생산성 향상 Hackathon: 혁신과 협업의 성공 사례
이 글은 현대오토에버의 GenAI Sandbox 활용 생산성 향상 해커톤 시리즈의 첫 번째 글이며, 현대오토에버의 허민오, 김지현님과 함께 작성하였습니다. “회사의 모든 팀이 GenAI 기반 서비스를 직접 만들 수 있다면 어떨까요?” 이 질문에 답하기 위해 현대오토에버는 GenAI 기술을 활용한 아이디어를 구성원 누구나 쉽게 실험해 볼 수 있는 환경을 구축하고 해커톤을 개최했습니다. 그 결과 14개의 팀, 150명의 구성원이 […]








