亚马逊AWS官方博客

相得益彰 — 亚马逊云科技向量存储选型推荐

随着AI系统,特别是Agentic AI系统的快速发展,对向量数据存储的需求日益增长。典型应用场景包括:

  • 实时推荐与个性化服务。基于用户行为向量和内容特征向量,实现商品推荐、内容分发、广告投放等个性化服务,要求毫秒级的响应时间和高并发处理能力。
  • 知识库的构建和语义检索。企业知识管理系统需要从海量文档中快速定位语义相关内容,为大语言模型提供精准的上下文信息,提升回答质量和领域专业性。
  • 多模态数据的存储和检索。现代AI应用需要处理图片、音频、文本等混合数据类型。Amazon Nova MME等多模态模型能够为这些异构数据生成统一的向量表示,实现跨模态的语义检索、关联分析和多维度信息的综合检索。
  • Agent智能体记忆系统。智能体需要存储和检索历史对话片段、用户偏好信息以及GraphRAG构建的知识图谱,实现个性化和上下文感知的交互体验。

从多模态数据处理到智能体记忆存储,向量数据库已成为现代AI架构的核心组件。本篇博客将深入分析向量存储选型的关键考量因素,并全面介绍亚马逊云科技的向量数据存储解决方案,旨在为您构建现代化Agentic AI应用时提供帮助。

向量存储选型的考量因素

在选择向量数据存储时,您可以从以下多个维度进行综合评估,最终在返回结果相关性、处理性能、成本消耗等要素之间找到最佳平衡点。

技术熟悉度 (Familiarity)

团队对数据库技术栈的熟悉程度直接影响开发效率和运维成本。选择团队已有经验的技术栈可以降低学习成本,加快项目交付速度。

性能表现 (Performance)

性能考量涉及多个关键指标的平衡。查询延迟决定了用户体验,大多数AI应用要求毫秒级响应时间,特别是实时推荐和交互式搜索场景。查询吞吐量反映了系统的并发处理能力,需要根据预期的用户规模和访问模式进行评估。召回率与精度的平衡关系到搜索结果的质量,需要根据业务需求在查全率和查准率之间找到最佳平衡点。索引构建速度影响数据更新的实时性,对于需要频繁更新向量数据的应用尤为重要。

可扩展性 (Scalability)

可扩展性是向量数据库选型的关键考量,涉及多个重要维度。向量维度支持决定了系统能否适应不同的应用场景,从处理几十维的简单文本嵌入到数千维的复杂多模态向量。数据规模扩展能力体现在系统能够承载的向量数量级别,现代向量数据库需要支持从百万级到数十亿级的数据增长,并在规模扩展过程中保持稳定的查询性能。水平扩展能力则关系到系统的集群化部署和动态扩容特性,确保能够根据业务负载变化灵活调整资源配置,实现弹性伸缩和高可用性。

系统集成性 (Integration)

系统集成能力决定了向量数据库与现有技术生态的融合程度。API兼容性影响与现有应用系统的对接难度,标准化的接口设计能够简化集成工作。生态集成能力体现在与数据处理工具、分析平台、机器学习框架的协同程度,良好的生态支持能够构建完整的数据处理链路。云服务集成则关注与云平台其他服务的协同能力,如与对象存储、计算服务、AI服务的原生集成,这种深度集成能够简化架构设计并提升整体效率。

技术成熟度 (Maturity)

技术成熟度反映了向量数据库的功能完整性和稳定性。索引算法的多样性决定了系统对不同数据特征和查询模式的适应能力,支持IVF、HNSW等多种算法能够针对不同场景进行优化。相似度计算方式的丰富程度影响搜索结果的准确性,余弦相似度、欧几里得距离、内积等不同计算方式适用于不同的向量特征。混合检索能力体现在向量搜索与传统过滤条件的结合程度,这种能力对于复杂查询场景至关重要。功能完整性则包括数据管理、监控、备份、安全等企业级功能的支持程度。

成本效益 (Cost-Effectiveness)

成本效益分析需要综合考虑多个成本维度的长期影响。基础设施成本包括计算、存储、网络资源的直接费用,不同的向量数据库在资源消耗模式上存在显著差异。运维成本涉及系统管理、监控、维护所需的人力投入,托管服务通常能够显著降低这部分成本。许可成本主要针对商业软件的授权费用。总体拥有成本需要综合评估长期使用过程中的所有费用,包括隐性成本如系统迁移、技能培训、风险管控等因素。

最终的选型决策需要在这些因素之间进行权衡,根据具体的业务需求、技术约束和预算限制,选择最适合的向量存储解决方案。基于客户的不同诉求,亚马逊云科技在多个数据服务上都支持了向量处理,方便客户根据自己的技术栈以及已有数据的存储位置进行自由的选择。

Aurora PostgreSQL

Amazon Aurora (Aurora) 是一个与 MySQL 和 PostgreSQL 兼容的完全托管的关系数据库引擎, 它不仅具有高端商用数据库的速度和可靠性,同时还具有开源数据库的简单性和成本效益。Aurora PostgreSQL提供全面的企业级特性,包括99.99%的单区域可用性SLA、自动故障转移、连续备份和时间点恢复。分布式存储架构在三个可用区维护数据副本 ,Aurora Global Database提供跨区域复制和亚秒级延迟 。

核心功能

pgvector扩展的核心功能
pgvector是PostgreSQL的开源扩展,为数据库引入了原生的向量数据类型和操作支持,使PostgreSQL能够存储和处理高维向量数据 。该扩展支持精确和近似最近邻搜索,同时保持ACID合规性、时间点恢复和完整的SQL集成能力 。Pgvector支持标准单精(vector)、半精度(halfvec)、二进制(bit)、稀疏(sparsevec)四种不同的向量数据类型以满足不同的存储需求。

向量处理能力的演进
pgvector在2024-2025年期间经历了重大性能提升。pgvector 0.7.0于2024年8月发布,引入了并行HNSW索引构建功能,使索引构建速度提升高达67倍 。该版本还添加了标量量化和二进制量化支持,可进一步降低存储成本和提高性能 。pgvector 0.8.0的发布标志着向量搜索能力的重大突破,提供高达9倍的查询处理速度提升和100倍的搜索结果相关性改进 。该版本引入了迭代索引扫描功能,有效解决了之前版本中过度过滤的问题,显著提高了复杂查询的召回率 。

Aurora PostgreSQL从2023年开始支持pgvector扩展,目前支持到pgvector 0.8.0版本,带来了显著的性能改进和新功能。Aurora PostgreSQL兼容多个PostgreSQL主要版本,包括PostgreSQL 17等,并针对Graviton4实例进行了优化。

pgvector与Aurora特性的深度集成
Aurora PostgreSQL的向量存储能力通过Aurora Optimized Reads得到进一步增强,该功能专门针对超出实例内存容量的大型数据集进行优化。结合pgvector的HNSW索引,Aurora Optimized Reads可提供比IVFFlat索引高20倍的查询性能改进 。这种集成使得Aurora PostgreSQL能够在处理大规模向量数据集时保持一致的低延迟性能。此外,Aurora的托管服务特性为向量存储提供了额外的运维便利。自动备份、补丁管理、监控和故障转移功能确保向量数据库的高可用性,而无需额外的运维开销。Aurora Serverless v2的支持使得向量工作负载可以根据需求自动扩缩容,在索引构建期间扩展到所需容量,完成后自动缩减以优化成本。

与生态系统的集成

Amazon Bedrock Knowledge Bases的深度集成
Aurora PostgreSQL与Amazon Bedrock Knowledge Bases的集成为企业构建检索增强生成(RAG)应用提供了完整的解决方案。自2024年12月起,Aurora PostgreSQL作为向量存储的快速创建选项已集成到Bedrock Knowledge Bases中,使得设置向量存储用于Bedrock应用变得更加简便 。这种一键式集成能力使得企业可以轻松地将基础模型(FM)与内部公司数据源安全连接,提供更相关和准确的响应 。Aurora PostgreSQL配合pgvector扩展作为Bedrock的向量存储知识库,支持检索增强生成应用的原生集成能力 。2025年4月,Amazon Bedrock Knowledge Bases进一步扩展了对Aurora PostgreSQL向量存储和全文检索的混合搜索支持 ,将语义向量搜索与传统关键词搜索相结合,显著提高了检索准确性。这种混合搜索能力使得知识库能够同时处理语义理解和精确匹配需求。

通过aws_ml扩展调用Amazon Bedrock
Aurora PostgreSQL通过aws_ml扩展提供了与Amazon机器学习服务的原生集成能力,使得数据库能够直接调用Amazon SageMakerAmazon Bedrock等服务 。这种集成消除了外部API调用的复杂性,允许开发者在SQL查询中直接执行机器学习推理和向量嵌入生成。除了使用Amazon Bedrock Knowledge Bases的托管RAG解决方案外,许多企业还需要构建定制化的向量搜索应用以满足特定的业务需求和技术要求。在这种场景下,Aurora PostgreSQL作为向量存储后端,而Bedrock提供嵌入生成和语言模型服务。这种分离的架构允许组织保持对数据存储和查询逻辑的完全控制,同时利用Bedrock的先进AI能力。参考文章:Automating vector embedding generation in Amazon Aurora PostgreSQL with Amazon Bedrock

Aurora PostgreSQL + pgvector的最佳选择场景

熟悉PostgreSQL技术栈
当组织已经拥有PostgreSQL专业知识和基础设施时,Aurora PostgreSQL + pgvector组合提供了最低的学习曲线和部署复杂性。pgvector扩展数据库而不改变其核心架构,允许向量操作同时使用熟悉的PostgreSQL查询语言(SQL),使其更容易集成到现有系统中 。基于开源PostgreSQL和pgvector扩展的架构有效避免供应商锁定,应用可轻松在不同PostgreSQL部署间迁移,包括自管理、其他云服务商或混合云环境。这种技术连续性和可移植性不仅降低了培训成本和技术风险,还为长期技术战略提供关键
灵活性。

混合查询需求场景
Aurora PostgreSQL在需要同时处理向量搜索和结构化查询的场景中展现出独特优势。与专用向量数据库不同,Aurora PostgreSQL能够在单一查询中结合向量相似性搜索和传统SQL过滤条件,避免了在多个系统间进行复杂的数据同步和查询协调。例如,电商系统可以同时基于产品描述的语义相似性和特定的类别、价格范围、品牌等结构化属性进行搜索,而无需在向量数据库和关系数据库之间进行复杂的数据同步。

多租户SaaS应用场景
Aurora PostgreSQL的行级安全性(RLS)为多租户SaaS应用提供理想的向量搜索解决方案。通过内置的行级安全机制实现租户隔离,有效防止配置错误导致的数据跨租户泄露。SaaS提供商可在单一数据库实例中安全服务多个客户,同时保持数据隔离和查询性能。在架构选择方面,Aurora Serverless v2特别适合租户数量和负载波动较大的SaaS场景,能够根据实际使用情况自动扩缩容,在低负载时段自动缩减资源以优化成本,在高峰期自动扩展以保证性能。相比专用向量数据库需为每个租户部署独立实例,Aurora PostgreSQL的这两种能力显著降低了运维复杂性和成本。

快速原型开发和MVP场景
对于需要快速验证AI应用概念的组织,Aurora PostgreSQL提供了理想的原型开发平台。相比专用向量数据库需要复杂的集群配置和专门的运维知识,Aurora作为托管服务大大简化了基础设施搭建过程,开发团队可以专注于业务逻辑验证而非底层技术细节。Aurora Serverless v2的按需扩展能力特别适合原型开发阶段的不可预测工作负载,当原型验证成功需要扩展到生产环境时,可以无缝迁移到标准Aurora配置。

Amazon OpenSearch

Amazon OpenSearch 是一个功能强大的开源搜索和分析引擎,它凭借其内置的向量数据库功能,已成为构建现代智能应用的关键组件。它能够将文本、图像乃至任何非结构化数据转换为高维向量(即嵌入)并进行存储和索引,然后通过近似最近邻(ANN)算法,实现基于语义相似度的毫秒级高效检索。其优势在于将传统的全文搜索与先进的向量搜索无缝融合,同时提供了企业级的数据持久性、分布式可扩展性和安全性,让开发者能在一个统一的平台上同时处理关键词匹配和语义理解,极大地简化了技术架构的复杂性。

核心功能

向量搜索能力
Amazon OpenSearch Service 通过 k-nearest neighbor (k-NN) 索引为客户提供高效的向量相似性搜索功能 。k-NN 插件从 Amazon OpenSearch 1.0 版本(2021年发布)开始就包含在官方发行版中,并且在之后发布的版本中引入 Faiss 库,以及 Product Quantization 向量压缩技术。从 2.11 版本开始引入神经稀疏检索(Neural Sparse Search)功能,为语义搜索提供了高效、低资源消耗的替代方案 。 Amazon OpenSearch 在近似向量搜索领域提供了业界领先的算法支持和性能表现:支持 HNSW、IVF 近似向量搜索算法,以及 Faiss 和 Lucene 等多种向量引擎,能够处理高达数千维度的向量数据。在数十亿级向量规模下实现毫秒级查询延迟,同时通过 Binary Quantization 等压缩技术在保持 99% 召回率的前提下将存储成本降低约 50%,并支持高达上千级别的 QPS 的并发查询,为大规模 AI 应用提供了稳定、高效且具成本效益的向量检索解决方案。

混合搜索能力
在 RAG 场景下,混合检索 + 重排序的流程已经几乎是一个业内标准,用来提升知识召回效果。混合搜索结合了关键词搜索(如 BM25)和语义搜索(如向量检索)的优点,弥补了各自的不足,从而提高了检索的准确性和效率。 Amazon OpenSearch Service 原生支持混合搜索,能够轻松集成语义搜索与关键词搜索。它不仅支持灵活对接外部嵌入模型,还提供了内置机制(如搜索管道和标准化处理器)用于调整不同检索通路的权重和相关性分数的统一。混合搜索支持多种评分规则。归一化(Normalization),通过标准化和加权平均等数学方法组合多个查询的文档分数,适合需要精确控制不同搜索类型权重比例的场景。分数排名(Score Ranker),使用排名融合技术重新排列文档,适合更注重文档相对排序而非绝对分数的搜索场景。

成本优化技术
基于内存的近似最近邻(ANN)算法 HNSW,会将所有向量存储与内存中,在海量数据场景,会消耗大量的内存资源,导致向量检索的成本显著的升高。Amazon OpenSearch 在向量搜索场景中引入了量化技术。通过对高维浮点向量进行压缩,Amazon OpenSearch 能在显著降低存储和计算资源消耗的同时,保持较高的检索准确率和响应速度。系统支持多种量化方式:

  • Binary Quantization(二进制量化):将向量从 32 位浮点数压缩为 1 位二进制格式(0 和 1) 。用户可以选择每个向量维度使用 1、2 或 4 位编码。例如:1bit 编码,实现32倍压缩,10亿向量仅需 193.6 GB 内存。
  • Byte Quantization(字节量化):将 32 位浮点维度压缩为 8 位整数(范围 -128 到 +127),内存使用量减少 75% 。这种方法在压缩率和精度之间提供了良好的平衡,同时兼容 Lucene 和 FAISS 引擎。
  • FP16 Quantization(半精度量化):FP16 量化使用 16 位浮点表示,将内存使用量减少 50% 。每个向量维度从 32 位转换为 16 位浮点,有效地将内存需求减半,适合对精度要求较高的应用场景。
  • Product Quantization(乘积量化):降维技术,可提供高达 64 倍的压缩级别 。该方法将原始向量分割为多个子向量,每个子向量编码为固定位数,实现极高的压缩效率。

根据测试,量化技术带来显著的成本节省效果:Product quantization 可节省高达90%成本,FP16 quantization 节省50%成本,Byte quantization 节省75%成本,Binary quantization 节省85%成本,同时保持90%以上的召回率和50毫秒以下的查询延迟。

企业级可靠性与扩展性
Amazon OpenSearch 托管服务通过企业级架构为向量搜索提供了全方位的保障:Multi-AZ 部署和 99.99% SLA 确保服务持续稳定运行,24/7 监控和自愈能力消除单点故障风险。Amazon OpenSearch Serverless 提供自动扩缩容和按需付费,在访问波动时保持高性能的同时优化成本。系统提供与 S3 相同级别的数据持久性和企业级安全保障,确保向量数据的可靠性。

与生态系统的集成

Amazon OpenSearch Service 在向量搜索场景中展现出强大的集成能力,通过多种方式与外部服务无缝连接,为企业构建智能搜索解决方案提供了完整的技术栈。

亚马逊云科技原生服务深度集成
Amazon OpenSearch Service 提供与 Amazon Bedrock 的原生双向集成,支持基础模型的高效嵌入生成和检索增强生成(RAG)应用 。同时,通过 Zero-ETL 集成能力,可直接连接 Amazon DynamoDB 和 Amazon DocumentDB,无需构建复杂的数据管道即可实现跨操作数据的向量搜索 。

机器学习模型连接器
通过预构建的连接器(ML Connector),Amazon OpenSearch Service 可轻松集成 Amazon SageMaker 进行模型训练和部署,支持 Amazon Titan 以及第三方模型如 OpenAI、Cohere、DeepSeek 等 。这些连接器简化了模型部署流程,开发者可以通过 Amazon OpenSearch Service 控制台的集成模板快速配置各种语义搜索能力 。

Amazon OpenSearch 的最佳选择场景

混合搜索需求场景
当应用需要同时支持传统关键词搜索和语义向量搜索时,Amazon OpenSearch提供了无可替代的优势。与专用向量数据库需要额外部署搜索引擎不同,Amazon OpenSearch原生融合了BM25关键词匹配和向量相似性搜索,支持在单一查询中灵活调整两种搜索方式的权重。电商平台可以同时基于商品名称精确匹配和描述语义相似性进行搜索,法律文档系统可以结合条款关键词和语义理解提供更准确的检索结果。

已有Elasticsearch/OpenSearch技术栈场景
对于已经使用Elasticsearch或OpenSearch进行日志分析、全文搜索的企业,添加向量搜索能力只需升级现有集群并启用k-NN插件,无需引入新的技术栈。这种技术连续性大大降低了学习成本和运维复杂性,团队可以在熟悉的Kibana界面中管理向量索引,使用相同的查询语法处理结构化和非结构化数据。

大规模数据与成本优化场景
Amazon OpenSearch的量化技术在处理大规模向量数据时展现出显著优势,通过Binary Quantization等压缩技术可节省高达90%的存储成本,同时保持90%以上的召回率。相比需要大量内存的专用向量数据库,Amazon OpenSearch能够在保持合理性能的前提下大幅降低基础设施成本,特别适合需要存储数十亿级向量的企业应用。

复杂分析与聚合场景
Amazon OpenSearch的强大聚合分析能力是专用向量数据库无法比拟的优势。系统不仅支持向量相似性搜索,还能对搜索结果进行复杂的统计分析、时间序列聚合、地理位置分析等操作。电商平台可以分析不同地区用户的商品偏好趋势,内容平台可以统计各类型内容的用户参与度变化,这种深度分析能力使Amazon OpenSearch成为既需要向量搜索又需要数据洞察的应用的理想选择。

Amazon Neptune Analytics

Amazon Neptune Analytics是Amazon Neptune的新一代分析引擎,专为处理大规模图数据和向量搜索而设计。作为一体化的图查询和图分析服务,Neptune Analytics能够在几秒钟内分析具有数百亿个连接的图数据,为企业提供前所未有的数据洞察能力。该服务采用内存处理架构,实现了低延迟响应和高吞吐量的图计算性能。

核心功能

向量存储与搜索能力
Neptune Analytics在图数据库的基础上集成了强大的向量存储和搜索功能,为生成式AI应用提供了独特的数据处理能力。系统支持在Neptune Analytics Graph中直接存储向量数据,并使用向量相似性搜索算法进行高效查询。每个图支持一个向量索引,维度范围可达65,535维,满足各种AI应用的向量存储需求。向量嵌入可以作为节点属性存储,为语义搜索结果增加可解释性,使得Neptune Analytics能够同时处理复杂的关系分析和语义搜索任务。

企业级性能与可靠性
Neptune Analytics支持副本配置以确保高可用性,系统采用复制拓扑结构来管理多个实例之间的数据同步,并自动执行连续备份。Neptune容量单元(m-NCU)提供了灵活的资源配置选项,每个m-NCU对应1GB内存以及相应的计算和网络容量。系统最小配置从16 m-NCU开始,采用按量付费模式,企业只需为实际使用的资源付费。

丰富的算法库与应用场景
Neptune Analytics提供了涵盖5个系列超过25种优化图分析算法和变体,包括聚类、相似性、路径查找、中心性分析和向量相似性算法。这些算法在社交网络分析、推荐系统、欺诈检测、网络安全分析、供应链优化和基因组学研究等领域有着广泛的应用。系统支持将图算法、模式匹配遍历和向量搜索整合到单一查询中,提供了强大的一体化分析能力。

简化的部署与集成
Neptune Analytics提供了简化的部署体验,通过单一API端点即可创建图、加载数据、调用查询和执行向量相似性搜索。系统支持多种数据源,包括现有的Neptune集群、集群快照或S3存储,也可以创建空图后通过批量加载导入数据。使用openCypher这一流行的开源图查询语言,开发者可以通过简单的API调用执行复杂的图算法和向量搜索操作。

与生态系统的集成

Amazon Bedrock Knowledge Bases集成
Neptune Analytics与Amazon Bedrock Knowledge Bases提供原生集成,用户可以直接输入S3文件位置,选择Neptune Analytics作为向量数据库,实现完全托管的解决方案。

开发框架支持
Neptune Analytics支持与LangChain和LlamaIndex等主流AI开发框架的集成。通过这些开源框架,用户可以轻松构建GraphRAG应用,结合Amazon Bedrock等服务实现知识图谱增强的生成式AI应用。此外,亚马逊云科技还提供了开源的GraphRAG Python工具包,简化了从非结构化数据构建和查询知识图谱的开发流程。

Amazon Neptune Analytics 的最佳选择场景

GraphRAG应用场景
基于知识图谱的检索增强生成应用,特别适用于需要可解释性、可信赖性和可溯源性的GenAI应用,如金融风控、医疗诊断、法律咨询和技术支持等领域。相较于传统的向量数据库RAG方案,GraphRAG能够实现跨文档推理和基于实体关系图的摘要生成。例如,在汽车故障诊断场景中,GraphRAG能够通过知识图谱发现”2024年某型号→电气系统→进气系统→空气滤清器位置偏低→雨天易积水”的精确关联路径,提供可追溯的精准诊断结果。

长期记忆存储场景
通过与Mem0智能记忆体框架的集成,为AI智能体提供图原生的长期记忆能力。系统能够基于存储在图数据库中的人际关系和实体关联,提供个性化的智能推荐和上下文感知的AI体验,使智能体能够从每次交互中学习并随时间推移变得更加个性化。

高性能图分析需求
适用于需要快速分析大型图数据集的场景,包括目标内容推荐、欺诈调查和网络威胁检测等应用。80倍的性能提升使其能够处理数百亿连接的复杂图数据。

混合查询场景
当需要在单一查询中结合图遍历、算法分析和向量搜索时,Neptune Analytics提供了独特的一体化解决方案,避免了在多个系统间进行复杂的数据同步和查询协调。

Amazon DocumentDB

Amazon DocumentDB是一个与MongoDB兼容的完全托管文档数据库,在2024年引入了原生向量搜索能力,为MongoDB技术栈的企业提供了无缝的向量存储解决方案。作为完全托管的服务,Amazon DocumentDB将文档数据库的灵活性与现代AI应用所需的向量搜索能力完美结合,使企业能够在熟悉的MongoDB用法中直接获得语义搜索功能,无需重构现有应用架构。

核心功能

向量搜索架构
Amazon DocumentDB通过MongoDB兼容的向量索引和搜索功能,为文档数据库带来了AI应用所需的语义搜索能力。系统支持在文档中直接存储向量嵌入,并通过$search (DocumentDB 5.0)或者 $vectorSearch(DocumentDB 8.0)聚合管道操作符执行向量相似性查询。Amazon DocumentDB的向量索引采用了高效的近似最近邻算法,能够在毫秒级延迟内处理大规模向量数据集,同时支持混合查询,将向量搜索与传统的文档过滤条件相结合。

文档与向量的统一存储
Amazon DocumentDB的核心优势在于将业务数据和向量嵌入存储在同一文档中,消除了在多个系统间进行复杂数据同步的需求。这种统一存储模型简化了应用架构,开发者可以在单一数据库中同时处理结构化查询和向量搜索,避免了维护多个数据存储系统的复杂性。例如,电商应用可以在产品文档中同时存储商品描述、价格、库存等结构化数据和产品描述向量,通过单一查询实现基于语义相似性和具体属性的综合搜索。

MongoDB生态兼容性
Amazon DocumentDB完全兼容MongoDB API,使得现有的MongoDB应用可以通过修改连接字符串直接迁移到Amazon DocumentDB,无需修改应用代码。这种API兼容性扩展到了向量搜索功能,开发者可以使用熟悉的MongoDB查询语言和驱动程序来执行向量操作。Amazon DocumentDB支持MongoDB的主要驱动程序和工具生态,包括Mongoose、PyMongo等,降低了学习成本和迁移风险。

企业级可靠性与性能
Amazon DocumentDB作为完全托管服务,提供了企业级的可靠性保障。系统支持Multi-AZ部署,自动故障转移确保服务连续性,99.99% SLA保证了生产环境的稳定运行。自动备份和时间点恢复功能为数据安全提供了全面保护,而内置的加密、VPC隔离和IAM集成则满足了严格的安全合规要求。Amazon DocumentDB的分布式存储架构在三个可用区维护数据副本,提供了与S3相同级别的数据持久性。

成本优化与扩展性
Amazon DocumentDB采用按需付费模式,用户只需为实际使用的计算和存储资源付费。系统支持自动扩展,能够根据工作负载需求动态调整资源,特别是Amazon DocumentDB Serverless提供了完全自动化的扩缩容能力,在访问波动时保持性能的同时优化成本。向量索引的存储成本相对较低,通过高效的索引结构和可选的向量压缩技术,进一步降低了大规模向量存储的成本。

与生态系统的集成

亚马逊云科技原生服务集成
Amazon DocumentDB作为完全托管的数据库服务,与亚马逊云科技生态系统提供了良好的集成能力。通过与AWS Lambda、API Gateway等服务的集成,开发者可以快速构建serverless的向量搜索应用。Amazon DocumentDB支持与Amazon CloudWatch的深度集成,提供全面的监控和告警能力。系统还可以与AWS IAM进行集成,实现细粒度的访问控制和安全管理。

开发框架支持
Amazon DocumentDB支持与主流AI开发框架的集成,包括LangChain、LlamaIndex等。通过标准的MongoDB驱动程序,现有的应用可以无缝添加向量搜索功能。系统还支持与各种嵌入模型的集成,包括Amazon Bedrock、OpenAI、Hugging Face等平台的模型。

Amazon DocumentDB的最佳选择场景

MongoDB技术栈迁移场景
当企业已经在MongoDB上构建了核心业务系统,需要为现有应用添加向量搜索能力时,Amazon DocumentDB提供了最平滑的迁移路径。无需重写应用代码,仅需修改连接配置即可获得企业级的托管服务和向量搜索功能,同时保持与MongoDB生态的完全兼容性。这种无缝迁移能力使得企业可以在不中断业务的情况下获得AI能力。

文档与向量统一存储需求
对于需要在单一数据模型中同时处理JSON数据和向量嵌入的应用,Amazon DocumentDB的统一存储能力消除了复杂的数据同步需求。内容管理系统、产品目录搜索、用户推荐等场景都能从这种统一模型中受益,简化了应用架构并提升了开发效率。相比需要在关系数据库和向量数据库间同步数据的方案,Amazon DocumentDB避免了数据一致性问题。

灵活文档结构与混合查询
Amazon DocumentDB的文档模型特别适合处理结构多变的数据,如用户生成内容、产品信息、社交媒体数据等。系统支持在单一查询中结合向量相似性搜索和传统的文档过滤条件,避免了在多个系统间进行复杂的查询协调。例如,社交媒体平台可以在用户帖子文档中存储文本内容、标签、时间戳和内容向量,通过单一查询实现基于内容相似性和用户属性的综合推荐;电商平台可以同时基于产品描述的语义相似性和特定的类别、价格范围、品牌等属性进行搜索,充分发挥了文档数据库灵活性与向量搜索能力的结合优势。

中等规模向量数据集
Amazon DocumentDB特别适合处理中等规模的向量数据集(百万到千万级别),在这个规模范围内提供了良好的性能价格比。与专用向量数据库相比,Amazon DocumentDB通过统一的文档存储模型和MongoDB兼容性,为企业提供了更低的总体拥有成本。

Amazon ElastiCache for Valkey

Amazon ElastiCache for Valkey作为基于内存的高性能数据存储服务,为向量搜索应用提供低至毫秒级的查询延迟和优异的召回率表现。它支持Valkey 8.2的原生向量搜索功能,能够索引、搜索和更新数十亿个高维向量嵌入,特别适合对延迟要求极高的AI应用场景。

核心功能

向量搜索架构
ElastiCache for Valkey基于Valkey 8.2构建了完整的向量搜索生态系统,支持通过FT.CREATE命令创建向量索引,使用FT.SEARCH执行相似性查询。系统原生支持HNSW和Flat两种索引算法,其中HNSW提供O(log N)时间复杂度的高效搜索性能。向量数据可以通过HASH或JSON数据类型存储,系统支持欧几里得距离、余弦相似度和内积三种距离度量方式。HNSW算法提供三个可调参数(M、EF_construction、EF_runtime)来平衡CPU和内存消耗与召回率,开发者可以根据具体应用场景进行精细化调优。

实时索引更新能力
ElastiCache for Valkey提供内联实时索引更新功能,确保用户提示和LLM响应持续流入时缓存能够实时更新。这种实时索引能力对于维持缓存结果的新鲜度和缓存命中率至关重要,特别是在流量激增的场景下。系统通过成熟的缓存原语简化语义缓存操作,包括按键TTL、可配置的驱逐策略、原子操作以及丰富的数据结构和脚本支持。新增向量立即加入现有索引并可被搜索,删除操作实时反映在搜索结果中,无需重建索引或批处理等待。在语义缓存场景中,用户的新查询和LLM回答需要立即加入缓存索引,确保后续相似查询能够命中缓存。在实时推荐系统中,用户行为数据和商品信息变化需要立即反映在推荐算法中,保证推荐结果的时效性和准确性。

极致性能表现
在使用ElastiCache for Valkey时,推荐优先采用垂直扩展(增加单分片内机型规格)的方式进行性能提升。相比水平扩展(增加分片数量),垂直扩展能够避免查询扇出到多个分片带来的网络开销和协调成本,保持更低的查询延迟和更高的吞吐量。

ElastiCache for Valkey基于内存存储架构,在理想条件下可提供亚毫秒级查询响应时间,在高吞吐量场景下实现毫秒级延迟的向量搜索。博客测试显示:

  • SIFT数据集(128维,100万向量):平均查询延迟0.8毫秒,召回率95%,支持26,451 QPS
  • Cohere数据集(768维,100万向量):平均查询延迟2.0毫秒,召回率99%,支持13,783 QPS
  • OpenAI数据集(1536维,500万向量):平均查询延迟3.9毫秒,召回率94%,支持17,607 QPS
  • Big-ANN数据集(128维,1亿向量):平均查询延迟3.8毫秒,召回率94%,支持10,031 QPS

这种极致的性能表现使其特别适合实时AI应用场景,如在线推荐、实时广告投放和高频交易等对延迟极其敏感的应用。

企业级架构与部署
ElastiCache for Valkey作为完全托管的缓存解决方案,支持集群模式和复制组配置,提供灵活的架构选择。系统支持自动扩缩容、故障转移和多可用区部署,大大简化了运维复杂性。对于需要数据持久性保障的场景,亚马逊云科技还提供MemoryDB for Valkey服务,它结合了内存性能和数据持久性,通过分布式事务日志确保数据安全,支持跨多个可用区的数据复制,提供99.99%的可用性SLA。

与生态系统的集成

与Amazon Bedrock协同工作
ElastiCache for Valkey可以与Amazon Bedrock协同工作,作为基础模型推理结果的缓存层。开发者可以将Bedrock生成的嵌入向量和LLM响应存储在ElastiCache中,构建语义缓存解决方案。当用户查询与历史问题语义相似时,系统直接返回缓存答案,避免重复的LLM调用。测试数据显示,语义缓存能够带来显著的成本效益:

  • 25%缓存命中率:总成本节省23%
  • 50%缓存命中率:总成本节省48%
  • 90%缓存命中率:总成本节省88%

开发框架支持
ElastiCache for Valkey支持与主流AI开发框架的无缝集成。通过标准的Valkey API接口,现有的Redis/Valkey应用可以轻松迁移并获得向量搜索能力。系统支持valkey-glide、valkey-py、valkey-java、valkey-go等多种客户端库。与AWS Lambda、API Gateway等服务的原生集成使得开发者可以快速构建serverless的向量搜索应用,与其他亚马逊云科技 AI服务协同工作,构建完整的AI应用架构。

ElastiCache/MemoryDB for Valkey的最佳选择场景

实时AI应用场景
当应用对查询延迟有极致要求时,ElastiCache for Valkey的快速响应提供了保障。实时推荐系统需要在用户浏览页面的瞬间完成商品推荐计算,高频交易中的异常检测需要在毫秒内识别可疑交易模式,在线广告投放需要在用户页面加载过程中完成个性化广告匹配。

高并发向量搜索场景
在需要支持数万级并发查询的场景中,ElastiCache for Valkey的高吞吐量能力提供了稳定的性能保障。通过垂直扩展(增加CPU核数)可以获得接近线性的性能提升,而多副本配置则可以进一步提升查询吞吐量。电商平台需要同时为大量用户提供个性化推荐,社交媒体平台需要实时匹配用户兴趣和内容特征,搜索引擎需要处理海量的并发语义匹配请求。

语义缓存优化场景
对于大规模部署的生成式AI应用,LLM调用成本往往是主要的运营开支。ElastiCache for Valkey通过智能的语义缓存机制,能够识别语义相似的查询并返回缓存结果,在显著降低成本的同时提升响应速度。这种能力对于客服机器人、智能问答系统、代码生成助手等高频交互应用具有重要价值。

混合存储架构场景
ElastiCache for Valkey作为多层向量存储架构的性能层,与其他亚马逊云科技服务协同工作构建完整的企业级向量数据管理方案。热数据存储在ElastiCache中提供毫秒级查询性能,温数据存储在OpenSearch中平衡性能和成本,冷数据归档到S3 Vectors中实现长期保存,形成完整的向量数据生命周期管理架构。

Amazon S3 Vectors

Amazon S3 Vectors 是首个具备原生向量存储和查询能力的云对象存储服务,为现代AI应用提供了革命性的向量搜索解决方案。它将Amazon S3的简单性、持久性和成本效益与原生向量搜索功能完美结合,作为完全托管的服务无需用户管理复杂的基础设施,相比传统解决方案在保持合理性能的同时显著降低存储成本和运维负担。

核心功能

向量存储架构
Amazon S3 Vectors将 Amazon S3 的简单性、持久性和成本效益与原生向量搜索功能完美结合,作为完全托管的服务无需用户管理复杂的基础设施,支持32位浮点向量数据存储和亚秒级搜索响应,同时提供专用的 API 操作进行向量相似性搜索,相比传统解决方案在保持合理性能的同时显著降低存储成本和运维负担。Amazon S3 Vectors 采用专门为向量数据优化的存储架构,由三个核心组件构成:向量桶(Vector Buckets)作为专用的存储容器,向量索引(Vector Indexes)用于组织和管理向量数据,以及向量(Vectors)本身的存储和检索。系统支持强一致性写入,确保用户能够立即访问最新添加的数据,并且随着数据集的扩展和演进,S3 Vectors会自动优化向量数据以实现最佳的性价比。

API 接口
Amazon S3 Vectors 提供了完整的 RESTful API 操作体系,包括向量桶管理(CreateVectorBucket、GetVectorBucket、DeleteVectorBucket)、向量索引管理(CreateIndex、GetIndex、DeleteIndex)以及向量数据操作(PutVectors、GetVectors、QueryVectors、ListVectors、DeleteVectors)等核心 API,支持通过 AWS CLI、SDK 和 REST API 进行全面的向量数据管理。每个向量桶最多支持 10,000 个向量索引,每个向量索引可容纳数千万个向量,向量维度支持 1-4096 维的 32位浮点数格式,支持余弦相似度(cosine)和欧几里得距离(euclidean)两种距离度量方式,并提供键值对元数据附加功能用于查询过滤。

性能表现
在性能方面,应用程序可以实现每个向量索引每秒至少5次的PutVectors和DeleteVectors请求,以及每秒数百次的QueryVectors、GetVectors或ListVectors请求。系统支持近似最近邻搜索(ANN),提供亚秒级查询响应时间,支持基于元数据的条件过滤查询,可通过 QueryVectors API执行相似性搜索并返回向量键、距离值以及相关元数据,同时支持批量向量操作和实时数据可见性。

成本优势与可扩展性
Amazon S3 Vectors 最突出的优势在于其成本效益,相比传统向量数据库能够降低高达90%的成本。传统向量数据库依赖昂贵的常驻硬件来维持内存索引和缓存,而S3 Vectors通过将定价与存储而非计算绑定,消除了对常驻服务器的需求。例如,存储1000万个 1536维向量,每月进行 25万次查询和 50%覆写的工作负载,传统向量数据库可能需要 300-500 美元,而Amazon S3 Vectors 仅需约30-50 美元。Amazon S3 Vectors 继承了 S3 的 99.999999999%(11个9)的持久性和几乎无限的可扩展性,支持从小型原型到PB级存档的各种应用场景。单个向量桶可包含多达10,000个向量索引,每个索引可容纳数千万个向量,使其成为从小型原型到企业级应用的理想选择。

与生态系统的集成

与Amazon OpenSearch Service双向集成
Amazon S3 Vectors 提供与 Amazon OpenSearch Service 的双向集成模式:一是作为 Amazon OpenSearch 的 s3vectors 引擎实现成本优化的向量存储,二是支持一键导出到 Amazon OpenSearch Serverless 实现高性能搜索,延迟可低至 10毫秒。这种集成允许用户通过将不频繁查询的向量保存在S3 Vectors中来优化成本、延迟和准确性,同时将 Amazon OpenSearch 用于需要高级搜索功能(如混合搜索、聚合、高级过滤和分面搜索)的最时间敏感操作。

与Amazon Bedrock Knowledge Bases集成
Amazon S3 Vectors与Amazon Bedrock Knowledge Bases提供原生集成,用于RAG 应用的构建和部署。系统提供 s3vectors-embed-cli 工具简化向量嵌入的生成和查询操作。该工具提供两个主要命令:s3vectors-embed put用于生成向量嵌入并插入向量索引,s3vectors-embed query用于通过Amazon Bedrock模型生成查询输入的向量嵌入并查询向量索引中的向量。

Amazon S3 Vectors 的最佳选择场景

大规模向量存档场景
Amazon S3 Vectors特别适合需要存储和查询数十亿级别向量嵌入的大规模数据场景,典型应用包括医疗影像相似性搜索、版权侵权检测、图像去重、视频内容理解等。其PB级存储能力和11个9的持久性保障,为企业提供了可靠的长期向量数据归档解决方案。

成本敏感的AI应用
对于对成本敏感但可接受稍高延迟的项目,Amazon S3 Vectors提供了理想的解决方案。企业文档语义搜索、个性化推荐系统的离线训练、历史数据分析等场景都能从其显著的成本优势中受益,相比传统向量数据库节省高达90%的存储成本。

混合架构集成场景
Amazon S3 Vectors支持与Amazon OpenSearch Service的混合架构集成,实现将不频繁查询的向量存储在S3 Vectors中而高频查询向量使用Amazon OpenSearch的智能分配策略。这种分层存储架构为企业在向量搜索技术选型中提供了兼顾成本效益和技术先进性的理想解决方案。

RAG系统的知识库存储
作为生成式AI应用中RAG系统的后端存储,Amazon S3 Vectors为需要构建和维护大规模向量索引的应用提供了成本优化的AI就绪存储,加速了从原型到生产的每个步骤的AI创新。通过与Bedrock Knowledge Bases的深度集成,简化了企业级RAG应用的部署和管理。

总结与选型建议

亚马逊云科技的向量存储解决方案诠释了数据库与AI技术”相得益彰”的融合理念,每项服务都在特定场景下发挥最佳效能,共同构建完整的向量数据生态系统。

技术栈匹配是选型的首要考量。对于已有PostgreSQL技术栈的企业,Aurora PostgreSQL + pgvector提供了平滑的路径,团队可以在熟悉的SQL环境中直接获得企业级向量能力,避免了学习新技术栈的成本和风险。对于已经使用ElastiSearch/OpenSearch技术栈的客户,可以直接在现有集群上启用Amazon OpenSearch的向量搜索功能同样,对于MongoDB技术栈的企业,Amazon DocumentDB提供了兼容的方案,无需修改应用代码即可获得向量搜索能力。当应用需要同时处理熟悉的查询方式和向量搜索时,这种混合查询能力显得尤为珍贵。

性能需求决定了架构选择的方向。Neptune Analytics凭借其独特的GraphRAG能力,为需要可解释性和可溯源性的AI应用提供了无可替代的价值,特别适合金融风控、医疗诊断等对准确性要求极高的场景。ElastiCache for Valkey则通过亚毫秒级响应时间,为实时推荐、语义缓存等高频场景提供了极致性能,同时显著降低了LLM调用成本。

成本优化需要分层策略。Amazon OpenSearch通过先进的量化技术实现了高达90%的存储成本节省,同时保持99%的召回率,为大规模向量搜索提供了经济高效的解决方案。Amazon S3 Vectors作为成本优化的对象存储服务,承载PB级向量数据的长期归档和冷数据存储需求,提供了最低的存储成本。

架构演进体现了企业AI应用的成熟度。初期阶段,企业通常选择单一向量存储快速验证概念,Aurora Serverless v2的按需扩展特性特别适合这一阶段。Amazon DocumentDB的文档模型为处理结构多变的数据提供了天然优势,特别适合内容管理和社交媒体等场景。随着应用复杂度提升,企业会逐步构建多层向量存储架构:Aurora PostgreSQL处理核心业务数据,ElastiCache提供缓存加速,Neptune Analytics支持复杂推理,Amazon OpenSearch处理搜索场景,Amazon S3 Vectors提供低成本的大规模向量存储。

生态集成放大了各服务的价值。Aurora PostgreSQL、Amazon OpenSearch、Neptune Analytics及Amazon S3 Vectors 与Amazon Bedrock Knowledge Bases的深度集成使得RAG应用的构建变得前所未有的简单,而与Mem0、LangChain等开源框架的集成则为开发者提供了丰富的工具选择。Mem0作为开源智能体记忆系统,支持Aurora PostgreSQL、Amazon OpenSearch、ElastiCache for Valkey和Neptune Analytics等多个亚马逊云科技向量存储服务,为AI智能体提供了灵活的长期记忆存储选择。这种开放的生态系统确保了企业投资的长期价值和技术选择的灵活性。

亚马逊云科技的向量存储矩阵让企业能够根据具体需求灵活选择,在技术熟悉度、性能要求、功能需求和成本控制之间找到最佳平衡点。无论是追求极致性能的实时应用,还是注重成本效益的大规模部署,都能在这个解决方案矩阵中找到最适合的技术路径,真正实现数据库与AI技术的”相得益彰”。

*前述特定亚马逊云科技生成式人工智能相关的服务目前在亚马逊云科技海外区域可用。亚马逊云科技中国区域相关云服务由西云数据和光环新网运营,具体信息以中国区域官网为准。

本篇作者

马丽丽

亚马逊云科技数据库解决方案架构师,十余年数据库行业经验,先后涉猎 NoSQL 数据库 Hadoop/Hive、企业级数据库 DB2、分布式数仓 Greenplum/Apache HAWQ 以及亚马逊云原生数据库的开发和研究。

黄霄

亚马逊云科技数据分析解决方案架构师,专注于大数据解决方案架构设计,具有多年大数据领域开发和架构设计经验。

汪允璋

亚马逊云科技解决方案架构师,目前专注于游戏行业云架构设计与优化,致力于帮助游戏客户应对高并发、全球部署及数据分析等技术挑战。

张涵异

亚马逊云科技解决方案架构师,负责游戏行业云架构设计和GenAI方案的场景探索。有15年的开发和架构经验,主导开发和迁移多个大型的IT项目,在大数据、AI以及可观测性领域拥有丰富经验。