Advanced (300) | AWS 기술 블로그

Amazon EC2 G5/G6 인스턴스에서 GPU Tensor Parallelism으로 비용 효과적으로 LLM 서빙하기

최근 많은 기업들이 자체 LLM을 구축하거나, 오픈소스 sLLM(Small Large Language Model)을 활용하여 설치형 LLM서비스를 구성하려는 수요가 크게 증가하고 있습니다. 그런데 실제로 배포하려는 모델을 살펴보면, Llama 3 70B, Qwen 72B, EXAONE 3.5 32B 등 모델을 GPU에 로드할 때 필요한 메모리가 40GB에서 최대 150GB에 달하는 경우가 많아, GPU 메모리가 80GB인 H100/H200이 탑재된 Amazon P5 인스턴스 이상을 요청하는 […]

Aurora PostgreSQL에서 한국어 하이브리드 검색 구현하기: pg_bigm + pgvector로 만드는 한국어 특화 RAG

한국어는 교착어 특성상 영어 기반 벡터 검색만으로는 정확한 결과를 얻기 어렵습니다. 이 블로그에서는 Amazon Aurora PostgreSQL에서 pg_bigm(바이그램 키워드 검색)과 pgvector(벡터 시맨틱 검색)를 RRF(Reciprocal Rank Fusion)로 결합한 하이브리드 검색을 구현하여, 한국어 RAG 애플리케이션의 검색 품질을 개선하는 방법을 소개합니다. 왜 한국어에는 하이브리드 검색이 필요한가? RAG(Retrieval-Augmented Generation) 애플리케이션에서 검색 품질은 최종 답변의 정확도를 결정합니다. 벡터 검색(pgvector)은 의미적으로 유사한 […]

Amazon EFS 트러블슈팅, NFS I/O Hang 과 Security Group Outbound 규칙의 상관관계

소개 Amazon Elastic File System(Amazon EFS)은 내부적으로 인프라 유지보수를 수행합니다. 정상적인 환경에서는 이 과정이 투명하게 처리되지만, EFS mount target에 연결된 security group의 기본 Outbound 규칙(Allow All)을 제거한 환경에서는 유지보수 시 NFS I/O가 수분간 hang되는 문제가 발생할 수 있습니다. 이 글에서는 실제 운영 환경에서 발생한 EFS NFS I/O hang 사례를 바탕으로, AWS EFS 서비스팀과의 협력을 통해 […]

OWASP 기반 GenAI 보안 실무 점검 가이드

부제 : LLM Top 10 (2025)과 Agentic Top 10 (2026)을 활용한 체크리스트 들어가며 생성형 AI(Generative AI) 워크로드의 양상이 빠르게 변화하고 있습니다. 현재 많은 프로덕션 환경에서 이미 멀티 에이전트 기반의 AI 워크로드가 수행되고 있으며, 이는 AI 애플리케이션의 주요 특징으로 자리잡아 가고 있습니다. 여러 에이전트가 목표를 분담하고, 도구를 호출하며, 서로 협업하고, 독립적으로 의사결정을 내리는 환경에서는 기존 단일 […]

NVIDIA와 함께 AWS에서 자율주행 3.0을 위한 End-to-End Physical AI 데이터 파이프라인 구축하기

본 블로그는 Olivier Sutter, Geoff Van Natter, Mikhail Yurasov, Amrith Prabhu, Steven DeVries, Wonsik Han이 작성한 Building an End-to-End Physical AI Data Pipeline for Autonomous Vehicle 3.0 on AWS with NVIDIA를 번역, 편집하였으며, 이해를 돕기 위해 Note를 추가했습니다. 도입 자율주행(AV) 개발은 아키텍처 관점에서 명확한 세대 전환이 진행 중입니다. AV 1.0: 인지(Perception), 예측(Prediction), 계획(Planning), 제어(Control)로 이어지는 […]

Amazon Aurora PostgreSQL에서 Amazon Bedrock으로 벡터 임베딩 생성 자동화

본 블로그는 Domenico di Salvia와 Andrea Filippo La Scola가 작성한 블로그인 Automating vector embedding generation in Amazon Aurora PostgreSQL with Amazon Bedrock를 번역, 편집하였습니다. 벡터 임베딩은 생성형 AI를 활용하여 애플리케이션에서 비정형 데이터를 다루는 방식을 근본적으로 변화시켰습니다. 임베딩은 텍스트, 이미지 및 기타 콘텐츠의 본질을 머신이 효율적으로 처리할 수 있는 형태로 변환하는 수학적 표현 방식으로, 시맨틱 검색, […]

중앙 집중식 및 분산형 비밀 관리 방식 알아보기

이 글은 AWS Security 블로그에게시된 글 (Exploring common centralized and decentralized approaches to secrets management)을 한국어로 번역 및 편집하였습니다. Amazon Web Services (AWS)의 비밀 관리 전략에 관한 흔한 질문 중 하나는 조직이 비밀을 중앙 집중화해야 하는지입니다. 이 질문은 비밀을 중앙에 저장해야 하는지에 초점을 맞추는 경우가 많지만, 비밀 관리 프로세스를 중앙 집중화할 때 네 가지 측면인 […]

Amazon OpenSearch Service백프레셔와 Admission Control에 대한이해와 클러스터 복원력 향상

“이 게시글은 AWS Big Data Blog에 작성된 “Improved resiliency with backpressure and admission control for Amazon OpenSearch Service” 블로그를 번역및 편집 하였습니다.” Amazon OpenSearch Service는 AWS가 관리하는 관리형 서비스로 클라우드 환경에서 OpenSearch 클러스터를 대규모로 보안, 배포 및 운영하는 것을 간단하게 만들어주는 관리형 서비스입니다. 2022년 OpenSearch는 내부적으로 샤드 인덱싱 백프레셔와 admission control이 적용 되었고, 이 기능을 […]

Amazon Bedrock 및 Strands Agents를 이용한 롯데백화점의 AI 컨시어지 구축기

오프라인 리테일의 AI 혁신 대한민국 대표 백화점인 롯데백화점은 전국 수십 개 지점에서 프리미엄 쇼핑 경험을 제공하고 있습니다. 롯데백화점의 오프라인 매장 및 서비스 정보를 제공하는 롯데백화점 앱은 업계 최대인 약 700만 명의 가입자를 보유하고 있으며, 월간 활성 사용자 수(MAU)는 110만 명에 이릅니다. 롯데백화점은 이러한 디지털 접점을 더욱 강화하고 고객 경험을 한 단계 끌어올리기 위해 AI 기반의 […]

AWS Transform Custom을 활용한 ASP.NET 모노리스 애플리케이션을 마이크로서비스로 변환하기

클라우드 이전 시대에는 모노리스 아키텍처가 일반적이었습니다. 그러나 클라우드 환경이 도래한 이후 마이크로서비스가 현대적 아키텍처의 주류로 자리잡았습니다. 이러한 측면에서 레거시 애플리케이션을 클라우드 친화적인 애플리케이션으로 마이그레이션 할 경우, 확장성과 가용성 향상을 위해 마이크로서비스 전환을 고려하게 되지만, 실제 구현은 상당한 복잡도를 수반합니다. AWS Microservice Extractor for .NET는 ASP.NET 모노리스 애플리케이션의 마이크로서비스 전환을 지원하는 UI 기반 도구였으나, 신규 사용자에 […]

AWS 기술 블로그

Category: Advanced (300)