本文首发于 OPPO 数智技术公众号,WeChat ID: OPPO_tech

1、什么是图数据库

图数据库(Graph database)是以图这种数据结构存储和查询的数据库。与其他数据库不同,关系在图数据库中占首要地位。这意味着应用程序不必使用外键或带外处理(如 MapReduce)来推断数据连接。与关系数据库或其他 NoSQL 数据库相比,图数据库的数据模型也更加简单,更具表现力。

图数据库在社交网络、知识图谱、金融风控、个性化推荐、网络安全等领域应用广泛。

2、图数据库调研

2.1、调研背景

随着知识图谱等业务数据的不断增长,现有图数据库 JanusGraph 应对已经比较吃力,导入时间已经无法满足业务的要求。因此寻找性能更好的开源属性图数据库已经成为了当前迫切要做的事情。

新图数据库应满足以下要求:

  • 能够支持 10 亿节点 100 亿边 170 亿属性的大规模图谱
  • 全量导入时间不超过 10h
  • 二度查询平均响应时间不超过 50ms,QPS 能够达到 5000+
  • 开源且支持分布式的属性图数据库

2.2、调研过程

第一步,搜集常见的开源分布式属性图数据库,如下表:

第二步,基于美团、LightGraph、TigerGraph、GalaxyBase 等图数据库测试报告,分析可得几个图数据库性能如下:

  • 导入:Nebula Graph > HugeGraph > JanusGraph > ArangoDB > OrientDB
  • 查询:Nebula Graph > HugeGraph > JanusGraph > ArangoDB > OrientDB

Nebula Graph不论是在导入还是在查询性能上都表现优异。

第三步,为了验证 Nebula Graph 的性能,对 Nebula Graph 和 JanusGraph 进行了一次性能对比测试,测试结果如下:

上图中,将 JanusGraph 性能看作 1,Nebula Graph 导入性能要比 JanusGraph 快一个数量级,查询性能是 JanusGraph 的 4-7 倍。而且随着并发量的增大,性能差距会进一步拉大,而且 JanusGraph 在从 20 个线程开始,三度邻居查询会有 error。而 Nebula Graph 没有任何 error。

Nebula Graph 全量导入 10 亿节点 100 亿边只需要 10h,满足要求,目前正在调研 SST 导入,可以大幅提升导入速度。

对 Nebula Graph 使用 120 个线程进行二度邻居查询压测,最终 QPS 在 6000+,相比单机有一些提升。成功率接近 5 个 9,而且响应时间比较稳定,平均 18.81ms,p95 38ms,p99 也才115.6ms,符合需求。

2.3、调研结论

Nebula Graph 导入性能、响应时间、以及稳定性均符合需求,支持数据切分,分布式版本免费开源,使用的企业也多,中文文档,文档全面,社区活跃,是开源图数据库的理想选择。

3、Nebula Graph 简介

图片来源于 Nebula Graph 文档站

Nebula Graph 是一款开源的、分布式的、易扩展的原生图数据库,能够承载数千亿个点和数万亿条边的超大规模数据集,并且提供毫秒级查询。

Nebula Graph 基于图数据库的特性使用 C++ 编写,采用 shared-nothing 架构,支持在不停止数据库服务的情况下扩缩容,而且提供了非常多原生工具,例如 Nebula Graph Studio、Nebula Console、Nebula Exchange 等,可以大大降低使用图数据库的门槛。

图片来源于 Nebula Graph 文档站

Nebula Graph 由三种服务构成:Graph 服务、Meta 服务和 Storage 服务,是一种存储与计算分离的架构。

Meta 服务负责数据管理,例如 Schema 操作、集群管理和用户权限管理等。服务是由 nebula-metad 进程提供的,生产环境中,建议在 Nebula Graph 集群中部署3个 nebula-metad 进程。请将这些进程部署在不同的机器上以保证高可用。所有 nebula-metad 进程构成了基于 Raft 协议的集群,其中一个进程是 leader,其他进程都是 follower。

Graph 服务主要负责处理查询请求,包括解析查询语句、校验语句、生成执行计划以及按照执行计划执行四个大步骤,服务是由 nebula-graphd 进程提供的,可以部署多个。

Storage 服务负责存储数据,服务是由 nebula-storaged 进程提供的,所有nebula-storaged 进程构成了基于 Raft 协议的集群,数据在 nebula-storaged 中分区存储,每个分区都有一个 leader,其它副本集构成该分区的 follower。

4、图数据库平台建设

之前在使用 JanusGraph 的时候,遇到过导入缓慢、查询慢、高并发 OOM(JanusGraph 线程池采用无界队列导致)、FULL GC(业务 Gremlin 语句中包含 Value 导致元空间不断膨胀导致)等问题,这些在切到 Nebula Graph 后基本得到了解决。

JanusGraph 并没有好用的管理界面,如上图所示,我们开发了一套包含多图管理、Schema 管理、图可视化、图导入、权限管理的管理界面。

而 Nebula Graph Studio 提供多图管理、Schema 管理、图可视化、图导入等功能,省去了很多开发工作,降低了使用门槛。

整个图数据库平台的结构如上图所示,基于 Nebula Graph 和 Nebula Graph 官方工具,着重开发了 全量导入、增量导入、图导出、备份/还原、查询工程(图检索)等功能。

官方导入工具需要提供导入配置文件,为了更便于业务使用,我们设计了一个 schema 配置表格,业务只需填好表格,导入的时候会自动创图,创建图的 schema,自动生成导入配置文件,自动导入数据,自动平衡数据,平衡leader, 创建索引,执行 compact 任务。当前还是批量写入的导入方式,后续会调研 SST 导入,导入性能可进一步提升。

官方提供的导入工具采用的是异步客户端,导入时极难控制导入速率,设置过大,容易导致图数据库请求积压,影响集群的稳定运行。设置过小,速度无法达到最优,导入过慢。我们修改了官方导入工具源码,将异步客户端改成了同步客户端,可以兼顾性能和稳定性。

官方没有提供导出工具,我们基于官方的 nebula-spark 开发了一个导出工具,除了能够导出数据,还能够导出 Schema 配置以及索引配置,便于业务做数据迁移。

为了支持数据回滚,我们开发了指定图谱的数据快速备份和还原的功能,不过该功能无法备份图谱元数据,全量导入会删除并重建图谱,由于元数据发生变化,之前的备份就没有用了。后续会尝试全量导入只清理数据不删图的方式来避免这个问题。

知识图谱业务的边类型非常多,经常一次查询需要查询几十上百种边,每种类型的边其实只需要返回 Top 10(根据rank排序)个结果就好。这种情况通过 nGQL 很不好实现,只能查询这些边的所有数据,或者所有边合在一起的 Top N 个数据,前者有性能问题,后者经常只能返回部分类型边的数据,无法满足需求。针对这种情况,我们对边进行了分类,对于数量较少的那些边类型,一条语句查询所有数据。对于数量多的边类型,使用多线程并行查询每条边的Top 10,这样就能进行一定的规避。

为了保证服务的高可用,我们实现了双机房部署。为了不让上层业务感知机房切换,在图数据库上层做了查询工程(图检索),业务直接调用查询工程的服务,查询工程会根据集群状态选择合适的图数据库集群查询。另外,为了向上层业务屏蔽底层图数据库变更和版本升级,查询工程会管理所有业务的查询语句。遇到图数据库因为版本升级出现查询语句不兼容的时候,只需要在查询工程中将图查询语言进行调整就好,避免波及上层业务。同时,查询工程也对查询结果进行了缓存,可以极大的提高图查询的吞吐量。

当然我们还遇到一些问题,如rank因大小端问题导致排序失效、查询结果只返回边类型id等,因为篇幅原因,在此不一一列举,这些问题通过 Nebula Graph 社区帮助,已经得到了规避或解决。

*注意:以上提到的 Nebula Graph 问题仅针对 V1.2.0 版本,很多问题后续版本已经修复。

5、业务落地

5.1、知识图谱及智能问答

在使用图谱之前,小布助手只支持基于文档的问答 DBQA,DBQA 利用的是非结构化的文本,适合回答 Why、How 等解释性、论述性问题,而对于事实性问题回答准确率和覆盖率不高。

在使用图谱后,小布助手支持基于知识库的问答 KBQA,在 What、When 等事实性问题的准确率和覆盖率大幅度提升。例如:xxx的老婆是?xxx奥特曼的体重是多少?北京的面积是多少?

除了事实性问答,小布助手还可以利用图谱的推理能力实现一些复杂问答:例如:xxx和xxx是什么关系?OPPO发布的第一款手机是什么?xxx和xxx共同参演的电影有哪些?出生在xx的双子座明星有哪些?

由于知识图谱存在规模庞大的半结构化数据,而且数据之间存在很多的关联关系,使用关系型数据库是无法满足存储和查询要求的,而图数据库恰恰能够解决大规模图谱存储和多跳查询的挑战。

5.2、内容标签

在一些推荐场景中,需要理解视频、音频或文本的内容,给其打上和内容相关的标签。例如在短视频推荐中,理解视频的内容有利于对用户进行精准推荐。

对于影视类视频,将演员、影视节目、扮演角色构造成一个影视娱乐图谱,当有新的影视类短视频发布时,可以通过视频中人脸识别出演员、标题或字幕中识别出影视角色,利用图谱快速推理出对应的影视作品,给视频打上内容标签,从而提升推荐效果。

5.3、数据血源

在数仓中,经常需要运行各种 ETL Job,数据表和任务非常多,如何直观的观察数据表上下游与任务之间的关系变成一个亟需解决的问题。

使用关系型数据库处理多层级的关联查询非常麻烦,不仅开发工作量大,而且查询性能极慢。而使用图数据库,不仅大大减少了开发工作量,而且能够快速的查出表的上下游关系,便于直观观察数据的血缘关系。

5.4、服务架构拓扑

在服务资源管理中,业务资源会分为多个层级,每个层级下面有对应的服务器、服务和管理人员,如果使用关系数据库来处理,当需要展示多级资源的时候,查询会很麻烦,性能会很差。这个时候,可以将资源、管理人员、服务器、业务层级之间的关系放到图数据库中,展示的时候,一条查询语句就能搞定,查询速度还很快。

6、总结

通过知识图谱等业务实践落地,完成了从 JanusGraph 向 Nebula Graph 的转变,导入性能提升了一个数量级,查询性能以及并发能力都有 3-6 倍的提升。而且,Nebula Graph 比 JanusGraph 更稳定。在实践的过程中,也遇到过很多问题,得到了 Nebula Graph 社区非常多的帮助,十分感谢社区的支持!

图数据库在最近这几年发展很快,Neo4j 今年上半年融资3.25 亿美金,刷新了数据库的融资记录。Gartner 发布的报告指出:“到 2023 年,图技术将促进全球 30% 企业的快速决策场景化。图技术应用的年增长率超过 100%。”随着 5G 和物联网的普及,图数据库将成为处理关系的基础设施。

7、参考文档

作者简介

Qirong, OPPO 高级后端工程师, 主要从事图数据库、图计算及相关领域的工作。

本文中如有任何错误或疏漏,欢迎去 GitHub:https://github.com/vesoft-inc/nebula issue 区向我们提 issue 或者前往官方论坛:https://discuss.nebula-graph.com.cn/建议反馈 分类下提建议 ;交流图数据库技术?加入 Nebula 交流群请先填写下你的 Nebula 名片,Nebula 小助手会拉你进群~~

OPPO 图数据库平台建设及业务落地的更多相关文章

  1. 图数据库 Nebula Graph 在 Boss 直聘的应用

    本文首发于 Nebula Graph 官方博客:https://nebula-graph.com.cn/posts/nebula-graph-risk-control-boss-zhipin/ 摘要: ...

  2. 茂名石化BPM应用实践 ——业务协同及服务共享平台建设和应用

    一.茂名石化简介 茂名石化隶属于中国石油化工集团公司,创建于1955年,是国家"一五"期间156项重点项目之一.经过50多年的发展,茂名石化已成为我国生产规模最大的炼油化工企业之一 ...

  3. DevOps落地实践点滴和踩坑记录-(2) -聊聊平台建设

    很久没有写文章记录了,上一篇文章像流水账一样,把所见所闻一个个记录下来.这次专门聊聊DevOps平台的建设吧,有些新的体会和思考,希望给正在做这个事情的同学们一些启发吧. DevOps落地实践点滴和踩 ...

  4. 主流开源分布式图数据库 Benchmark

    本文由美团 NLP 团队高辰.赵登昌撰写 首发于 Nebula Graph 官方论坛:https://discuss.nebula-graph.com.cn/t/topic/1377 1. 前言 近年 ...

  5. 时间序列大数据平台建设(Time Series Data,简称TSD)

    来源:https://blog.csdn.net/bluishglc/article/details/79277455 引言在大数据的生态系统里,时间序列数据(Time Series Data,简称T ...

  6. TOP100summit 2017:【案例分享】魅族持续交付平台建设实践

    本篇文章内容来自第10期魅族开放日魅族运维架构师林钟洪的现场分享.编辑:Cynthia 一.自动化建设历程1.1 魅族互联网发展的时间线 2003-2008年被称之为“互联网1.0时代”.2003年, ...

  7. Kubernetes容器云平台建设实践

    [51CTO.com原创稿件]Kubernetes是Google开源的一个容器编排引擎,它支持自动化部署.大规模可伸缩.应用容器化管理.伴随着云原生技术的迅速崛起,如今Kubernetes 事实上已经 ...

  8. COSCon'19 | 如何设计新一代的图数据库 Nebula

    11 月 2 号 - 11 月 3 号,以"大爱无疆,开源无界"为主题的 2019 中国开源年会(COSCon'19)正式启动,大会以开源治理.国际接轨.社区发展和开源项目为切入点 ...

  9. 移动APP漏洞自动化检测平台建设

    移动APP漏洞自动化检测平台建设   前言:本文是<移动APP客户端安全笔记>系列原创文章中的第一篇,主要讲的是企业移动APP自动化漏洞检测平台建设,移动APP漏洞检测发展史与前沿技术,A ...

随机推荐

  1. P3313-[SDOI2014]旅行【树链剖分,线段树】

    正题 题目链接:https://www.luogu.com.cn/problem/P3313 题目大意 \(n\)个点的一棵树,每个点有一个颜色和权值,有操作 修改一个点的权值 修改一个点的颜色 询问 ...

  2. 前端规范之JS代码规范(ESLint + Prettier)

    代码规范是软件开发领域经久不衰的话题,几乎所有工程师在开发过程中都会遇到或思考过这一问题.而随着前端应用的大型化和复杂化,越来越多的前端团队也开始重视代码规范.同样,前段时间,笔者所在的团队也开展了一 ...

  3. ES5新增方法--查找方法--forEach(),filter(),some()区别

    1.forEach方法 迭代(遍历)数组 var arr = [1, 2, 3]; var sum = 0; arr.forEach(function (value, index, array) { ...

  4. NER为什么那么难

    命名实体识别(Name Entity Recognition) 是自然语言处理中一个比较基础的问题.要解决的问题是,从unstructure的文本当中找到实体并归类.当然我这么定义已经有了一定的bia ...

  5. MySQL5.7主从复制-异步复制搭建

     两台服务器,系统是Redhat6.5,MySQL版本是5.7.18.1.在主库上,创建复制使用的用户,并授予replication slave权限.这里创建用户repl,可以从IP为10.10.10 ...

  6. 配置Internal Load balancer中VM的外网访问

    当在Azure中部署SQL VM时,处于安全考虑,不会配置VM的Public IP,会禁止外网的进出站访问,只允许从内部VNET,或者特定的内部IP访问.特别是当使用Azure Internal Lo ...

  7. JavaScript有同步任务和异步任务,浏览器是怎么处理的?

    1.在讨论浏览器与JavaScript之前,我们先来简单了解一下进程与线程 进程(process):资源分配的最小单位 进程是应用程序的执行实例,是操作系统进行资源分配和调度的一个独立单位. 线程(t ...

  8. javaweb 入门

    java web 我们首先来看一下两种网络服务的常用架构. C/S([Client/Server])架构 B/S架构 (Browser/Server) (这是重点) 程序完全部署在服务器上,用户通过浏 ...

  9. 联想SR658安装显卡驱动【NVIDIA Tesla V100】

    1. 安装基础依赖环境 yum -y install gcc kernel-devel kernel-headers 2.查看内核和源码版本是否一致 查看内核版本: ls /boot | grep v ...

  10. UI自动化测试之Airtest

    官方文档: https://airtest.doc.io.netease.com/ 本文我们讲解下Airtest的使用,主要学习目标有以下几点: (1)认识Airtest (2)了解Airtest能做 ...