AWS 기술 블로그

Category: Amazon Titan

한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크

한국어 SPLADE v3 스타일 모델(sewoong/korean-neural-sparse-encoder-base-klue-large)을 Amazon OpenSearch Service에 배포하고, BM25 / Titan Embedding V2 / 각 하이브리드 조합을 MIRACL-ko로 비교했습니다. 코드와 정량 지표 중심으로 Sparse / Dense / Lexical을 어떻게 선택할지 판단할 수 있도록 정리했습니다. 검색의 출발점: TF-IDF와 BM25의 한계 정보 검색(Information Retrieval)은 사용자의 쿼리에 가장 관련성이 높은 문서를 찾아내는 문제입니다. 이 문제에 쓰이는 고전적인 […]