亚马逊AWS官方博客

Category: Database

利用大模型 embedding 结合 Aurora PostgreSQL 实现医疗术语检索增强生成的解决方案

在这篇博客中,我们将讨论使用双路召回的方式来优化医疗文献检索。其一是利用大模型对所有医疗文献的摘要进行 embedding,输出的向量数据存储到向量数据库;用户检索时,把用户输入的医疗术语进行 embedding 向量化,在向量数据库中进行相似性检索,找到最相似的文档。其二是通过对文献的摘要提取关键字,存入 Aurora PostgreSQL 中并创建倒排索引,实现对用户输入进行全文检索。两种方法结合,提高文档召回的精确度,缩小上图中的 Medical data 的范围和尺寸,达到减少幻觉并降低 token 数的诉求。