亚马逊AWS官方博客

亚马逊云科技图数据库Neptune与开源Neo4j基于Pokec社交数据的性能测试和场景总结

一.概述

在当今数据驱动的时代,图数据库已成为处理复杂关系数据的关键技术。本文基于Pokec社交网络数据集(包含163万用户和3062万关系边),对市场上主流的图数据库解决方案进行了全面的性能测试和对比分析。我们选择了Amazon Neptune(OpenCypher和Gremlin两种查询语言)、Neo4j作为测试对象,通过严格控制的测试环境和方法,从吞吐量、响应时间、并发扩展性等多个维度进行了深入评估。

本次测试旨在为企业在选择图数据库时提供客观、全面的参考依据,帮助技术决策者根据自身业务场景选择最适合的图数据库解决方案。测试结果显示,不同的图数据库在各种查询场景下表现各异,需要根据具体应用场景和需求进行选择。

二.压测环境和压测方式

2.1.压测环境配置

所有测试均在AWS云平台上进行,为确保公平对比,我们为每个数据库使用了相同逻辑的测试脚本,所有测试基于单节点,且所有的数据全都缓存到内存内进行测试比对,仅在连接方式和查询语法上进行了必要的适配,以确保环境一致性和可重复性:

类别

规格

CPU

内存

其他

压测机器

c6in.16xlarge

64vCPU

128GB

Neo4j压测脚本

压测机器

c6in.16xlarge

64vCPU

128GB

Neptune压测脚本

Neo4j

r8g.4xlarge

16vCPU

128GB

Neo4j版本5.15.0社区开源版,数据存储在100GB的gp2 EBS

Neptune

r8g.4xlarge

16vCPU

128GB

Neptune版本1.4.5.1

2.2.压测方法

  • 数据集:Pokec社交网络数据,包含163万用户和3062万关系边,来自学术资源库SNAP(Stanford Network Analysis Project)
  • 并发线程:16线程
  • 测试时长:每轮测试持续3分钟
  • 查询类型:从0跳到5跳加上统计类查询的7种关系查询,覆盖从简单到复杂的各种场景
  • 查询权重分布:单点查询25%,1跳20%,2跳18%,3跳15%,4跳10%,5跳7%,统计类查询5%
  • 测试指标:QPS、平均响应时间、P95响应时间、P99响应时间、成功率等

三.压测对比和分析

3.1.核心性能对比结果

指标

Neptune OpenCypher

Neo4j

Neptune Gremlin

QPS

439.3

396.8

124.8

平均响应时间

32.50ms

37.02ms

119.60ms

P95响应时间

28.93ms

106.86ms

186.91ms

P99响应时间

34.75ms

143.65ms

221.45ms

成功率

91.67%

100%

100%

总查询数

86,269

71,450

22,490

从核心性能指标来看,Neptune OpenCypher吞吐量和响应时间方面表现最为出色,QPS达到439.3,比Neo4j高出约10.7%,比Neptune Gremlin高出约252%。对应,在极端情况下的处理上,3s超时的情况下Neptune OpenCypher在目标测试集上超时的情况下会有8.33%存在超时的情况。

总体而言,Neptune OpenCypher在整体核心性能上查询的稳定性性比较高,其中平均响应时间,p95 和 p99都是三种方式中最低的且比较接近,Neo4j的p95 和 p99 响应时间会超出平均响应时间接近两倍。

3.2.不同跳数查询的响应时间对比

跳数

Neptune OpenCypher

Neo4j

Neptune Gremlin

0跳(单点)

32.65ms

9.03ms

107.58ms

1跳

28.39ms

50.40ms

125.25ms

2跳

36.06ms

57.64ms

132.13ms

3跳

35.24ms

43.49ms

121.39ms

4跳

31.98ms

35.71ms

115.67ms

5跳

32.41ms

24.24ms

111.79ms

在不同跳数的测试比对中,可以看出Neptune OpenCypher 在5跳以内查询性能比较稳定。

四.技术架构对比分析

三种图数据库在技术架构上存在显著差异:

4.1.连接方式对比

连接方式

Remark

Neptune
OpenCypher

采用HTTP短连接方式,通过HTTPS协议和AWS SigV4认证机制进行通信。

这种连接方式特别适合高并发场景,因为它不会长期占用服务器资源,但每次查询都需要重新建立连接,因此存在一定的连接开销。在大规模分布式环境中,这种方式能够支持更多的并发连接,但可能会增加单次查询的延迟。

Neptune
Gremlin
使用WebSocket长连接技术,通过WSS协议和AWS SigV4认证保障通信安全。 长连接模式建立后可持续使用,显著降低了连续查询的延迟,特别适合需要频繁交互的应用场景。然而,由于每个连接会占用服务器资源,其并发能力相对受限,在高并发环境下可能需要额外的连接池管理策略。

Neo4j

采用专有的Bolt长连接协议,结合用户名密码的认证方式,提供了稳定可靠的连接体验。

Bolt协议经过专门优化,能够高效处理图数据传输,且由于是本地可控的连接机制,用户可以根据实际需求灵活调整连接参数,在性能和安全性之间取得平衡。

4.2.查询语言对比

查询语言

Remark

Neptune
OpenCypher

Neptune OpenCypher基于OpenCypher规范实现,采用声明式SQL类语法,使得从关系型数据库迁移的用户能够快速上手。

其查询优化器经过AWS专门调优,能够高效处理复杂的图模式匹配操作,学习成本相对较低,适合快速开发和原型设计。

Neptune
Gremlin

Neptune Gremlin基于Apache TinkerPop
Gremlin框架,使用命令式的图遍历语法,允许用户精确控制查询执行路径。

这种方式提供了更细粒度的查询控制,但学习曲线较陡峭,需要开发者对图遍历概念有深入理解。虽然优化程度中等,但在某些特定场景下可以通过手动优化获得更好性能。

Neo4j

Neo4j的原生Cypher语言是最成熟的图查询语言之一,采用声明式SQL类语法,结合了直观的图模式表达方式。

Neo4j对Cypher进行了深度优化,能够高效处理各种复杂查询模式,且有丰富的学习资源和社区支持,使得学习门槛相对较低。

这些架构和语言特性的差异直接影响了各数据库在不同应用场景中的表现。Neptune OpenCypher的HTTP短连接模式虽然有连接开销,但在云环境和高并发系统中表现出色;Neo4j的Bolt协议在稳定性和可控性方面具有明显优势;而Neptune Gremlin的WebSocket长连接则在需要复杂图遍历的专业应用中提供了更精确的控制能力和更低的持续交互延迟。

4.3.横向扩展特性对比

扩展特性

Neptune
OpenCypher

Neptune在横向扩展方面具有显著的云原生优势。它支持1个写节点配合最多15个读副本的集群架构,能够实现真正的读写分离。

AWS托管的读副本端点提供自动负载均衡功能,将查询请求智能分发到各个读副本节点。

更重要的是,Neptune支持弹性扩展,可以根据业务负载动态添加或删除读副本,整个扩展过程对正在运行的业务完全无影响。所有节点共享同一个存储层,数据一致性完全由AWS底层架构保障,无需用户干预。

Neo4j

Neo4j开源版本在扩展能力上存在明显限制。开源版本仅支持单实例部署,无法实现读写分离,这意味着所有读写操作都必须在同一个节点上处理。

当面临高并发访问时,Neo4j开源版主要依靠垂直扩展(提升单机硬件配置)来提升性能,这种方式不仅成本高昂,而且存在明显的性能天花板。

五.性能总结

Neptune OpenCypher在高并发Web应用中表现卓越,QPS达到439.3,分别比Neo4j和Neptune Gremlin高出10.7%和252%。其HTTP短连接模式天然适配云环境的大规模访问,查询稳定性优异,平均响应时间、p95和p99指标均为最低且数值接近,性能波动小。优化的查询引擎在复杂多跳关系查询中表现稳定,特别适合高并发Web应用(QPS > 400)、需要频繁执行复杂关系查询的实时系统,以及云原生架构的图数据应用。需要注意的是,在3秒超时设置下,约8.33%的查询可能超时,需在高可用系统设计中预留容错机制。
Neo4j凭借成熟的架构和专有Bolt协议确保了企业级的稳定性和可靠性。其查询缓存和优化机制提供一致的性能体验,拥有完整的企业级部署选项和管理工具,以及丰富的生态系统和社区支持。Neo4j特别适合关键业务系统(要求100%可靠性)、以单点查询为主的应用、传统企业环境(特别是对数据安全性和操作透明度有严格要求的场景),以及需要本地部署控制的环境。但需要注意的是,在高负载下p95和p99响应时间可能达到平均响应时间的两倍,存在一定性能波动。
Neptune Gremlin的命令式查询模型在复杂图算法实现中具有独特优势。其WebSocket长连接模式确保连续操作的低延迟,细粒度操作能力支持精确遍历控制,与TinkerPop生态系统完全兼容,扩展性强。虽然QPS表现相对较低,但在图数据科学和复杂分析应用、需要实现自定义图算法的场景、对查询执行过程需要精确控制的应用,以及要求极高稳定性的连续操作系统中,其灵活性和控制能力无可替代。对于特定的图算法实现和需要精确遍历控制的场景,Neptune Gremlin是理想的选择。

六.场景建议

6.1.1000+ QPS高负载场景

在面对1000+ QPS的高负载需求时,Neptune OpenCypher展现出显著的扩展效率优势。基于16 vCPU单节点439.3 QPS的性能基准,Neptune OpenCypher仅需要约3-4个实例即可满足1000+ QPS的业务需求,而Neo4j需要约4-5个实例,Neptune Gremlin则需要约10-12个实例才能达到相同的吞吐量水平。这种差异在成本控制和资源利用率方面具有重要意义,特别是对于需要快速扩展的互联网应用而言。

值得注意的是,Neo4j开源版本在高负载场景下面临严重的扩展瓶颈,无法进行水平扩容,只能通过升级单机硬件配置或采用成本更高的企业版本来解决性能问题。这种架构限制使得Neo4j在处理大规模并发访问时缺乏灵活性,而Neptune OpenCypher的云原生架构天然支持弹性扩展,可以根据业务负载动态调整实例数量。

6.2.低延迟场景

在对响应时间要求严格的低延迟场景中,Neptune OpenCypher平均响应时间为32.5ms,且性能表现稳定可预测。相比之下,Neo4j在单点查询时可以满足低延迟要求,但在复杂多跳关系查询中往往难以维持稳定的低延迟表现。Neptune Gremlin由于平均响应时间高达119.6ms,在严格的低延迟场景中难以满足业务需求。

需要注意的是,在3秒超时设置下,Neptune OpenCypher约有8.33%的查询可能出现超时情况,这在设计高可用系统时需要预留相应的容错机制。尽管如此,其整体的性能稳定性和扩展能力仍然使其成为高并发图数据库应用的首选方案,特别适合需要在云环境中快速部署和扩展的现代Web应用架构。

七.结语

本文基于Pokec社交网络数据的图数据库性能测试,全面评估了Neo4j、Neptune OpenCypher和Neptune Gremlin三种主流图数据库解决方案的性能特点。Neptune OpenCypher在高并发云原生场景和低延时场景中展现出卓越的性能优势和扩展能力,特别适合现代Web应用的弹性架构需求。

随着数据规模的持续增长和业务复杂度的不断提升,图数据库技术将继续演进。企业在进行技术选型时,应综合考虑当前业务需求、未来扩展规划、团队技术能力以及总体拥有成本等多个维度,选择最适合自身发展阶段和业务特点的图数据库解决方案。同时,建议在正式部署前进行充分的概念验证测试,以确保所选方案能够满足实际业务场景的性能和功能要求。

八.参考资料

*前述特定亚马逊云科技生成式人工智能相关的服务目前在亚马逊云科技海外区域可用。亚马逊云科技中国区域相关云服务由西云数据和光环新网运营,具体信息以中国区域官网为准。

本篇作者

白雪尧

亚马逊云科技解决方案架构师,曾任职于 SAP、微软的开发、技术支持部门。对高并发低延迟现代化应用架构、数据分析有丰富经验,对web3/HPC/半导体设计行业有行业经验。

殷雨濛

亚马逊云科技解决方案架构师,负责基于亚马逊云科技的云计算方案的架构设计。曾在 IBM、HPE 和花旗银行担任数据科学家和研发负责人,在 IT 咨询、数据科学和软件研发领域有丰富的实践经验。专注于推动技术创新,通过高效的解决方案设计,帮助企业实现业务转型和增长。

王志广

亚马逊云科技数据库专家,十余年数据库行业经验,具有丰富的大规模数据库架构的设计和运维经验。

姚福圆

AWS 资深技术客户经理,负责企业级客户的架构设计、成本优化和技术支持等工作。在加入AWS之前,曾就职于Citrix和Morgan Stanley等公司,拥有超过15年的企业级技术支持和架构设计经验。