AWS 기술 블로그
Category: Analytics
AWS 분석 서비스에서 Apache Iceberg 활용하기
What is Iceberg? Apache Iceberg는 페타바이트 기반의 데이터를 위한 오픈소스 데이터 테이블 형식으로, Netflix에서 개발하여 2020년부터 아파치 재단의 오픈소스로서 활용되었습니다. Apache Iceberg의 가장 큰 특징은 데이터 레이크에 저장된 대규모 데이터 세트를 테이블로 관리하며 Upsert, 스키마 진화, Time Travel query 등의 데이터 처리를 지원한다는 것입니다. 이러한 기능은 Apache Iceberg가 ACID를 보장하기 때문에 가능합니다. 기존의 Apache Hive […]
Amazon MSK에서 올바른 클러스터 유형을 선택하는 방법
이 글은 AWS Big Data Blog에 게시된 How to choose the right Amazon MSK cluster type for you by Ali Alemi을 한국어로 번역 및 편집하였습니다. Amazon Managed Streaming for Apache Kafka (Amazon MSK)는 Apache Kafka의 인프라 및 운영을 관리하는 AWS 스트리밍 데이터 서비스로, 개발자와 DevOps 관리자가 AWS에서 Apache Kafka 애플리케이션 및 커넥터를 쉽게 실행할 수 있도록 해줍니다. […]
한국어 Reranker를 활용한 검색 증강 생성(RAG) 성능 올리기
검색 증강 생성 (Retrieval-Augmented Generation, RAG)은 효율적인 데이터 검색과 대규모 언어 모델 (Large Language Model, LLM) 을 결합하여 정확하고 관련성 높은 응답을 생성하는 AI 기술로 부상했습니다. 특히, RAG 방식은 최신 정보를 반영하여 답변의 부정확성이나 환각을 줄인다는 면에서 많은 사용자들의 관심을 받고 있습니다. 그러나 RAG 시스템이 보다 복잡한 실제 애플리케이션에 적용 됨에 따라, 시멘틱 벡터 검색 […]
지니뮤직의 다중 계정 관리 방안과 통합 데이터 관리 및 시각화 전략
지니뮤직은? 지니뮤직(geniemusic)은 음악을 사랑하는 사람들의 삶을 보다 더 행복하게 해준다는 비전을 가지고 있는 음악 스트리밍 서비스 기업입니다. 안정적인 음악사업을 기반으로 공연, AI콘텐츠창작, 도서영역으로 사업다각화를 추진해 외연확장을 통한 성장을 이뤄내고 있으며, 앞으로 AI음악플랫폼 genie의 경쟁력 강화, 커넥티드 환경에서 음악 사용성 증대, AI창작기반 융합콘텐츠사업 혁신을 다각적으로 추진해 기업성장을 이끌 것입니다. 배경 자사 개발팀에서 Amazon EKS migration을 위한 […]
IAM을 활용하여 Amazon MSK 주제 접근 제어하기
배경 현대의 많은 기업과 서비스에서 Apache Kafka의 사용은 빠른 시간 내에 굉장히 보편화되었고, 그 목적과 중요도에 따라 높은 확장성과 고가용성을 요구합니다. Apache Kafka와 같이 분산 환경에서 실행되는 이벤트 브로커는 다양한 팀과 사용자가 같이 사용하는 형태이기에 보안은 굉장히 중요합니다. 하지만 이를 관리해야 하는 관리자의 입장에서는 이러한 요구 사항을 만족시키며 설정하는 것은 Apache Kafka에 대한 깊은 수준의 […]
Amazon MSK를 활용한 데이터베이스 간 CDC 구현하기
최근 많은 고객들이 디지털 전환을 위해 온프레미스의 모놀리식 아키텍처에서 MSA를 통한 클라우드로의 전환을 하기 위해 많은 노력을 하고 있습니다. 리스크가 있는 빅뱅 방식보다 점진적 전환 전략을 선택하다 보니 과도기적으로 온프레미스와 클라우드에 동시에 데이터베이스를 운영하게 되고 클라우드DB에서 온프레미스DB로 데이터를 동기화 해야 할 필요가 생기게 됩니다. 물론 마이그레이션이 완료되면 제거될 부분이지만 그 전까지는 서비스 중단을 예방하기 위해 […]
AWS IAM Identity Center를 사용하여 Amazon OpenSearch Serverless에 대한 SAML 연동 구성하기
이 글은 AWS Big Data Blog에 게시된 Configure SAML federation for Amazon OpenSearch Serverless with AWS IAM Identity Center by Utkarsh Agarwal를 한국어 번역 및 편집하였습니다. Amazon OpenSearch Serverless는 클러스터를 구성, 관리 또는 확장할 필요 없이 대규모 검색 및 분석 워크로드를 쉽게 실행할 수 있도록 해주는 Amazon OpenSearch Service의 서버리스 옵션입니다. 리소스를 자동으로 프로비저닝하고 확장하여 […]
한영 동시 검색 및 인터넷 검색을 활용하여 RAG를 편리하게 활용하기
기업의 중요한 문서를 검색하여 편리하게 활용하기 위하여 LLM(Large Language Model)을 활용하는 기업들이 늘어나고 있습니다. 기업의 모든 데이터를 사전 학습하는 것은 비용 및 시간에 대한 제약뿐 아니라 데이터 보안 면에서도 바람직하지 않을 수 있습니다. RAG(Retrieval-Augmented Generation)의 지식 저장소(Knowledge Store)를 활용하면, 다수의 문서를 안전하게 검색하여 관련된 문서(Relevant documents)를 추출한 후에 LLM에서 용도에 맞게 활용할 수 있습니다. RAG의 지식 […]
Amazon OpenSearch Service Hybrid Query를 통한 검색 기능 강화
서론 최근 자체적인 생성형 AI를 만들기 위한 여러가지 노력들이 있습니다. 이때 검색 증강 생성(Retrieval Augmented Generation, RAG) 모델을 활용하여 외부 소스의 정보를 사전에 지식 데이터베이스로 사용하며 생성형 AI 모델의 정확성과 신뢰성을 향상시키기 위해 다양한 방법으로 실험이 진행 되고 있습니다. Amazon OpenSearch Service는 Vector Database로 많은 사랑을 받고 있으며 2023년 11월 20일 기존 Lexical Search와 K-NN 기반 […]
TVING 사례로 본 AWS 인프라를 이용한 글로벌 비즈니스 확장 기반 마련하기
비즈니스 배경 TVING은 ‘NO.1 K-콘텐츠 플랫폼’이라는 목표 아래 다양한 콘텐츠를 수급 또는 직접 제작하는 콘텐츠 기업이자 D2C 서비스를 제공하는 종합 엔터테이먼트 플랫폼입니다. 실시간 TV, 방송 VOD, 영화는 물론 분데스리가, 국내 프로야구, AFC, UFC 등 다양한 스포츠 콘텐츠 그리고, TVING 오리지널 콘텐츠까지 제공합니다. 2010년 5월 CJ헬로비전에서 출시된 TVING은 2020년 독립회사로 출범하였습니다. 국내 최초 MAU(Monthly Active Users) […]