AWS 기술 블로그
Category: Amazon OpenSearch Service
Amazon OpenSearch Service의 AI/ML 커넥터로 Neural 검색 강화
OpenSearch 2.9에서 Amazon OpenSearch Service의 Neural 검색 기능이 출시되며, AI/ML 모델과 통합하여 시맨틱 검색 및 다양한 검색 기능을 손쉽게 강화할 수 있습니다. OpenSearch Service는 2020년에 k-NN(k-최근접 이웃) 기능을 도입한 이래 어휘 검색과 벡터 검색을 모두 지원해 왔지만, 시맨틱 검색을 구성하려면 머신 러닝(ML) 모델을 통합하여 색인 및 검색할 수 있는 프레임워크를 구축해야 했습니다. Neural 검색 기능은 […]
Amazon OpenSearch Service Integration 기능을 활용한 손쉬운 임베딩 파이프라인 구성
서론 최근 자체적인 생성형 AI를 만들기 위한 여러가지 노력들이 있습니다. 특히 검색 증강 생성(Retrieval Augmented Generation, RAG) 모델을 활용하여 외부 소스의 정보를 사전에 지식 데이터베이스로 사용하며 생성형 AI 모델의 정확성과 신뢰성을 향상시키기 위해 다양한 방법으로 실험이 진행 되고 있습니다. Amazon OpenSearch Service는 Vector Database로 많은 사랑을 받고 있으며 2.9 버전부터 Neural Search 기능이 출시됨에 따라 […]
동작 방식과 함께 알아보는 최적의 Amazon OpenSearch Service 사이징
서론 OpenSearch 는 Apache Lucene 검색 라이브러리로 구동되며, K-NN 검색, SQL, 이상 탐지, 전체 텍스트 검색 등 다양한 검색 및 분석 기능을 제공하는 Elasticsearch 에서 파생된 오픈 소스 입니다. 그리고 Amazon OpenSearch Service 는 OpenSearch 및 레거시 Elasticsearch OSS (7.10까지) 를 지원하는 관리형 오픈 소스 검색 엔진입니다. 이러한 OpenSearch Service 를 활용하기 위해서는 도메인이라고 불리는 […]
AWS DMS를 이용한 CDC 데이터 실시간 수집 및 분석 데이터 파이프라인 구축하기
관계형 데이터베이스(RDBMS)는 데이터를 저장하고, 분석하고자 할 때 가장 많이 사용되는 솔루션 입니다. 하지만, RDBMS로 처리하기 어려울 만큼 많은 양의 데이터를 저장하고 관리해야 하는 상황이 자주 발생합니다. 또한, MSA (마이크로 서비스아키텍처)를 도입해서 비즈니스 도메인 단위로 RDBMS를 물리적으로 격리하는 경우에 데이터 분석을 위해서 여러 RDBMS의 데이터를 한 곳에 모아서 저장하고, 관리해야할 필요가 있습니다. 즉, 데이터 레이크를 구축해서 […]
한국어 Reranker를 활용한 검색 증강 생성(RAG) 성능 올리기
검색 증강 생성 (Retrieval-Augmented Generation, RAG)은 효율적인 데이터 검색과 대규모 언어 모델 (Large Language Model, LLM) 을 결합하여 정확하고 관련성 높은 응답을 생성하는 AI 기술로 부상했습니다. 특히, RAG 방식은 최신 정보를 반영하여 답변의 부정확성이나 환각을 줄인다는 면에서 많은 사용자들의 관심을 받고 있습니다. 그러나 RAG 시스템이 보다 복잡한 실제 애플리케이션에 적용 됨에 따라, 시멘틱 벡터 검색 […]
AWS IAM Identity Center를 사용하여 Amazon OpenSearch Serverless에 대한 SAML 연동 구성하기
이 글은 AWS Big Data Blog에 게시된 Configure SAML federation for Amazon OpenSearch Serverless with AWS IAM Identity Center by Utkarsh Agarwal를 한국어 번역 및 편집하였습니다. Amazon OpenSearch Serverless는 클러스터를 구성, 관리 또는 확장할 필요 없이 대규모 검색 및 분석 워크로드를 쉽게 실행할 수 있도록 해주는 Amazon OpenSearch Service의 서버리스 옵션입니다. 리소스를 자동으로 프로비저닝하고 확장하여 […]
한영 동시 검색 및 인터넷 검색을 활용하여 RAG를 편리하게 활용하기
기업의 중요한 문서를 검색하여 편리하게 활용하기 위하여 LLM(Large Language Model)을 활용하는 기업들이 늘어나고 있습니다. 기업의 모든 데이터를 사전 학습하는 것은 비용 및 시간에 대한 제약뿐 아니라 데이터 보안 면에서도 바람직하지 않을 수 있습니다. RAG(Retrieval-Augmented Generation)의 지식 저장소(Knowledge Store)를 활용하면, 다수의 문서를 안전하게 검색하여 관련된 문서(Relevant documents)를 추출한 후에 LLM에서 용도에 맞게 활용할 수 있습니다. RAG의 지식 […]
Amazon OpenSearch Service Hybrid Query를 통한 검색 기능 강화
서론 최근 자체적인 생성형 AI를 만들기 위한 여러가지 노력들이 있습니다. 이때 검색 증강 생성(Retrieval Augmented Generation, RAG) 모델을 활용하여 외부 소스의 정보를 사전에 지식 데이터베이스로 사용하며 생성형 AI 모델의 정확성과 신뢰성을 향상시키기 위해 다양한 방법으로 실험이 진행 되고 있습니다. Amazon OpenSearch Service는 Vector Database로 많은 사랑을 받고 있으며 2023년 11월 20일 기존 Lexical Search와 K-NN 기반 […]
Amazon OpenSearch Service, 한국어 분석을 위한 ‘노리(Nori)’ 플러그인 활용
Amazon OpenSearch Service는 애플리케이션 모니터링, 로그 분석, 웹 사이트 검색과 같은 사용 사례에서 비즈니스 또는 운영 데이터의 실시간 검색, 모니터링, 분석을 안전하게 제공합니다. 이 게시물에서는 한글 문서를 효과적으로 다루기 위해 노리 플러그인을 다루고 있습니다 개요 Amazon OpenSearch Service에서 유명한 오픈 소스 한국어 텍스트 분석기인 노리 플러그인을 지원합니다. 기존에 지원하던 은전한닢(Seunjeon) 플러그인과 더불어 노리를 활용하면 개발자가 […]
Amazon SageMaker JumpStart와 Vector Store를 이용하여 Llama 2로 Chatbot 만들기
Llama 2의 대규모 언어 모델(Large Language Models)을 이용하여 질문/답변(Question/Answering)을 수행하는 chatbot을 vector store를 이용하여 구현합니다. 대량의 데이터로 사전학습(pretrained)한 대규모 언어 모델(LLM)은 학습되지 않은 질문에 대해서도 가장 가까운 답변을 맥락(context)에 맞게 찾아 답변할 수 있습니다. 이는 기존의 Rule 방식보다 훨씬 정답에 가까운 답변을 제공하지만, 때로는 매우 그럴듯한 잘못된 답변(hallucination)을 할 수 있습니다. 이런 경우에 파인 튜닝(fine tuning)을 통해 […]