在6月8日举办的【墨天轮数据库沙龙第七期—开源生态专场】中,北京大学重庆大数据研究院图数据库与知识图谱实验室副主任、北京大学王选计算机研究所全职博士后 李文杰老师分享了《面向知识图谱应用的图数据库系统gStore》主题演讲,本文为整理内容。

导读

大家好,我是来自北京大学的李文杰,我今天分享的主题是《面向知识图谱应用的图数据库系统gStore》,内容将从以下几个方面展开:图数据行业背景、gStore图数据库系统、gStore开源之路。

图数据库行业背景

1、大数据与人工智能推动图数据库发展

随着大数据、人工智能时代的到来,图数据库及知识图谱也应运而生并逐渐发展。

图数据充分体现了大数据的关联性,拥有广泛的应用场景。图数据能够关联信息,使之成为知识,同时图数据能够很清晰揭示复杂的模式,用于挖掘人、物和实体之间的潜在不易观察的行为和联系。

在人工智能领域,图数据也发挥着巨大的作用。认知智能作为人工智能中重要的分支,知识图谱便是认知智能的数据基础,因此以图数据库为代表的知识图谱逐渐获得了广大的关注。



图1 知识图谱数据的存储与查询

2、图数据库的优势

为什么随着大数据与人工智能的发展,图数据能够迅速火热?主要是基于它独特的优势。首先,在关联查询的条件下,图数据库表现出性能方面的优势,能够支持秒级多跳查询。除此之外,图数据库也具有优秀的表达能力,能够构建与检索复杂的人物关系,实现“按图索骥”。

正是因为它的独特优势,近年来图数据一枝独秀成为近几年数据管理软件发展最为快捷的数据管理软件类型。



图2 图数据在 DB-Engines 上的发展趋势

gStore图数据库系统

不管是关系型数据库还是图数据库,中国公司在核心数据管理引擎技术上存在缺位的现状,“打造图数据管理系统的中国芯”也成为了我们的愿景。

从2011年开始,北京大学王选计算机所数据管理实验室开始研发面向知识图谱的图数据库管理系统,到目前为止,gStore已经走过了11年的时间,它有着源头创新自主可控标准系统系统优越的核心技术。

gStore面向知识图谱应用,采用了RDF模型。在2011年的顶级会议VLDB上,子图匹配的搜索查询方法被gStore团队首次提出,从此奠定了gStore的核心是自主研发的原生的数据库管理系统。 不管是从存储模式还是存储结构的角度,gStore都是自主研发的数据库管理系统。



图3 gStore实现了源头创新

gStore同样也获得了国外业内同行的认可,在国外第三方的测试中,gStore 在性能与查询时间上表现出了优势。



图4 gStore在测试中的表现结果展示

除了技术认可,gStore在学术上做的贡献也得到了认定。围绕着gStore核心技术,团队发表国际数据库领域顶级期刊会议论文(包括SIGMOD,VLDB等)35篇,被国内外学术同行引用超过2000次。



图5 gStore的学术认定

gStore开源之路

1、研发历程及产品生态

接下来我们一起回顾 gStore 的研发历程。

gStore的研究论文最早发表在数据库领域顶级国际会议VLDB 2011上,在论文中提出利用子图匹配的方法来构建图数据库系统。2017年,gStore 0.7版本在Github上开源。一直到今天,gStore也保持着至少一月一次的代码提交频率。



图6 gStore研发历程

目前gStore 开发团队研发了gBuilder、gAnswer、gWorkbench、gMaster、gCloud等系列产品,初步形成了围绕着知识图谱应用的产品栈



图7 gStore 产品生态

2、为什么选择开源?

接下来讲讲gStore的开源之路。为什么选择开源,我们基于以下两个方面的考虑:

首先gStore作为一款自主研发的图数据库产品,在孵化期阶段需要获取国家科技资金支持,完成产品原型及关键理论研究

其次我们希望gStore通过开源的方式吸引一批技术爱好者以及特定客户,从而选择关键客户及应用场景进行技术及场景验证与探索核心引擎产品化及商业化

目前图数据库的发展正处于成长期,我们经常会花很多时间向客户介绍“什么是图数据库”,社会大众对图数据库的不了解是这个领域面临的一个普遍性问题。因此我们迫切的需要从开源以及社区建设等途径,打造大众社会对图数据库的认知。



图8 gStore 目前的阶段及为未来发展

3、gStore 开源建设与策略

gStore在开源建设上持续努力,积极与各个社区平台展开合作。



图9 gStore 合作的开源平台与社区

作为一款开源项目,gStore有较为宽松的开源策略,我们采用BSD开源协议,同时在GitHUB

与gitee上有最新的源码可供下载。

我们参考Neo4j 的方式实行开源版与企业版并行。相较于开源版,企业版具有如最短路、环路检测、K跳可达、PageRank等图分析算法的高级功能,同时还具有分布式部署的能力。



图10 gStore 开源策略

4、gStore 未来计划

gStore在发展过程中,对于开发者而言存在着一些问题,借这个机会与业界同仁一起来探讨。

第一个问题是开发者使用不易。目前项目中参与代码贡献的更多是高校的老师与学生,同时代码的体量较大,大约为十多万行,其中包块项目研发者自己设计的相关数据结构、索引结构。因此这样的代码对于开发者学习与研究而言,较为吃力。

第二个问题是学习资料较少。开发者能够学习和参考使用的的资料不足,也因此导致GitHub等平台star和fork不足。因此gStore的研发团队也在整理类似于openGauss内核源码分析的内核手册与文件,同时也会增加用户手册以及产品宣传的工作,从而改善学习资料较少的现状。

第三个问题是内部沟通较少,开发者内部针对gStore的讨论未搭建完善的平台,大家互通有无连接不足。



图11 gStore 目前存在的问题

基于以上的问题,gStore的开源计划将从两个方面进行重点开源优化,增加gStore相关使用学习资料以及增加共享机制。



图12 gStore 后期开源计划

我今天的分享就到这里,谢谢大家!

更多精彩内容,欢迎大家观看现场视频回放与会议资料

视频回放:https://www.modb.pro/video/6497

会议资料:https://www.modb.pro/doc/64475


欲了解更多可以进入墨天轮社区,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、活动直播、在线课程、文档阅览、资源下载、知识分享及在线运维为一体的统一平台,持续促进数据领域的知识传播和技术创新。

关注官方公众号: 墨天轮、 墨天轮平台、墨天轮成长营、数据库国产化 、数据库资讯

墨天轮沙龙 | 北京大学李文杰:面向知识图谱应用的图数据库系统gStore的更多相关文章

  1. 1. 通俗易懂解释知识图谱(Knowledge Graph)

    1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 从一开始的Google搜索,到现在的聊天机器人.大数据风控 ...

  2. 知识图谱顶刊综述 - (2021年4月) A Survey on Knowledge Graphs: Representation, Acquisition, and Applications

    知识图谱综述(2021.4) 论文地址:A Survey on Knowledge Graphs: Representation, Acquisition, and Applications 目录 知 ...

  3. 基于pyecharts的中医药知识图谱可视化

    基于pyecharts的中医药知识图谱可视化 关键词: pyecharts:可视化:中医药知识图谱 摘要: 数据可视化是一种直观展示数据结果和变化情况的方法,可视化有助于知识发现与应用.Neo4j数据 ...

  4. [敏杰开发]知识路书——图形化文献管理大师 Beta版发布喽!!!

    [敏杰开发]知识路书--图形化文献管理大师 Beta版发布喽!!! 一.总览 项目名称:知识路书 发布形式:网页应用 发布地址:http://roadmap.imcoming.top 二.运行环境与使 ...

  5. 知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2021):生物信息学中的图表示学习:趋势、方法和应用

    4.(2021.6.24)Briefings-生物信息学中的图表示学习:趋势.方法和应用 论文标题: Graph representation learning in bioinformatics: ...

  6. Atitit 知识图谱的数据来源

    Atitit 知识图谱的数据来源   2. 知识图谱的数据来源1 a) 百科类数据2 b) 结构化数据3 c) 半结构化数据挖掘AVP (垂直站点爬虫)3 d) 通过搜索日志(query record ...

  7. Atitti 知识图谱构建方法attilax 总结

    Atitti 知识图谱构建方法attilax 总结   1.1. 知识图谱schema构建(体系化)1 1.2. 纵向垂直拓展(向上抽象,向下属性拓展)2 1.3. 横向拓展2 1.4. 网拓展2 1 ...

  8. 如何系统学习知识图谱-15年+IT老兵的经验分享

    一.前言 就IT而言,胖子哥算是老兵,可以去猝死的年纪,按照IT江湖猿龄的规矩,也算是到了耳顺之年:而就人工智能而言,胖子哥还是新人,很老的新人,深度学习.语音识别.人脸识别,知识图谱,逐个的学习了一 ...

  9. 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架

    目录 分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构. 文章目录 @ 一.知识图谱商业应用 01 唯品金融大数据 02 PlantData知识图谱数据智能平台 03 ...

  10. ERNIE:知识图谱结合BERT才是「有文化」的语言模型

    自然语言表征模型最近受到非常多的关注,很多研究者将其视为 NLP 最重要的研究方向之一.例如在大规模语料库上预训练的 BERT,它可以从纯文本中很好地捕捉丰富的语义模式,经过微调后可以持续改善不同 N ...

随机推荐

  1. 将txt转化为csv的方法和遇到问题

    一.无法修改扩展名步骤如下 二.转换之后所有数据都挤在第一列 win10系统修改文件扩展名只需4部,打开我的电脑->查看->选择->查看->取消勾选(已知隐藏文件的扩展名)-& ...

  2. 【SpringBoot】日志在项目中的应用

    日志的目的: 为了方便日后的运维,快速定位BUG,错误信息等等 日志算是一个救命稻草 pom.xml需要的依赖: <?xml version="1.0" encoding=& ...

  3. 跨平台字幕制作软件ARCTIME

      官网:http://arctime.cn/

  4. 如何安装废弃版本的Jax —— pypi服务器上不保存的python包应该如何安装

    python的公开扩展包的存储是在网站: http://pypi.org/ 一般情况下,这是没有问题的,但是对于一些更新版本比较多的扩展包就出现了问题,因为pypi的服务器对每个项目(扩展包)都是由存 ...

  5. 深度学习中使用TensorFlow或Pytorch框架时到底是应该使用CPU还是GPU来进行运算???

    本文实验环境为Python3.7, TensorFlow-gpu=1.14, CPU为i7-9700k,锁频4.9Ghz, GPU为2060super显卡 ====================== ...

  6. Ubuntu18.04server 双网卡,开机自动设置路由并启动校园网网络认证程序(Ubuntu开机自动设置路由,开机自启动应用程序)

    本博主为高龄在校生,实验室服务器需要假期时候无人守候也能实现自动登录校园网从而实现网络连接,以使实验室同学在家也可以使用校园vpn连接服务器. 由于假期时候实验室没有人,而假期实验室可能会出现断电断网 ...

  7. windows系统下安装最新版gym的安装方法(此时最新版的gym为0.24.0,gym==0.24.0)

    当前gym的最新版本为0.24.0,本篇介绍对gym[atari]==0.24.0进行安装. 使用pip安装: pip install gym[atari] 可以看到此时安装的是ale_py而不是at ...

  8. 一文讲透CRC校验码-附赠C语言实例

    一口君最近工作用到CRC校验,顺便整理本篇文章和大家一起研究. 一.CRC概念 1. 什么是CRC? CRC(Cyclic Redundancy Checksum)是一种纠错技术,代表循环冗余校验和. ...

  9. HarmonyOS NEXT未成年人模式无缝联动所有应用,过滤非适龄内容

    背景 随着消费电子产品和移动互联网的普及,未成年人互联网普及率96.8%,超过80%的未成年人都拥有自己的上网设备,而如何引导孩子正确上网一直是家长们的担忧.市场上很多电子设备.系统推出了一些未成年人 ...

  10. How to set keyboard for xshell 8 beta? 快捷键设置

    今天发现xshell8 不能使用Ctrl + v,就找了一下攻略,发现版本不对,都是低版本的,针对还处于测试期间的xshell 8,没有攻略. 那就自己摸索吧,看了几眼,发现:xshell 8 挪位置 ...