前言 本文由 Nebula Graph 实习生@王杰贡献. 最近 @Yener 开源了史上最大规模的中文知识图谱--OwnThink(链接:https://github.com/ownthink/KnowledgeGraphData ),数据量为 1.4 亿条. 本文介绍如何将这份数据快速导入图数据库 Nebula Graph,全过程大约需要 30 分钟. 中文知识图谱 OwnThink 简介 思知(OwnThink) 知识图谱是由 Google 在 2012 年提出来的一个概念.主要是用来描述…
本文由 Nebula Graph 实习生@王杰贡献. 最近 @Yener 开源了史上最大规模的中文知识图谱——OwnThink(链接:https://github.com/ownthink/KnowledgeGraphData),数据量为 1.4 亿条. 本文介绍如何将这份数据快速导入图数据库 Nebula Graph,全过程大约需要 30 分钟. 中文知识图谱 OwnThink 简介 思知(OwnThink) 知识图谱是由 Google 在 2012 年提出来的一个概念.主要是用来描述真实世界…
社区小伙伴反馈在实践文章<使用图数据库 Nebula Graph 数据导入快速体验知识图谱 OwnThink>时,遇到了一些问题,Nebula Graph 将在本文对该文章中出现的问题进行 Debug. 报错信息:panic: yaml: line 14: mapping values are not allowed in this contex 使用 nebula-importer 时,报错: panic: yaml: line 14: mapping values are not allo…
图数据库(英语:Graph Database)是一个使用图结构进行语义查询的数据库.该系统的关键概念是图,形式上是点 (Node 或者 Vertex) 和边 (Edge 或者 Relationship) 的集合.一个顶点代表一个实体,比如,某个人,边则表示两个实体间的关联关系,比如 "你关注 Nebula Graph"的关注关系.图广泛存在于现实世界中,从社交网络到风控场景.从知识图谱到智能推荐. Nebula Graph 是什么 Nebula Graph 是一款开源的分布式图数据库,…
本文首发于 Nebula Graph 官方博客:https://nebula-graph.com.cn/posts/nebula-graph-risk-control-boss-zhipin/ 摘要:在本文中,BOSS 直聘大数据开发工程师主要分享一些他们内部的技术指标和选型,以及很多小伙伴感兴趣的 Dgraph 对比使用经验. 业务背景 在 Boss 直聘的安全风控技术中,需要用到大规模图存储和挖掘计算,之前主要基于自建的高可用 Neo4j 集群来保障相关应用,而在实时行为分析方面,需要一个支…
导读 索引是数据库系统中不可或缺的一个功能,数据库索引好比是书的目录,能加快数据库的查询速度,其实质是数据库管理系统中一个排序的数据结构.不同的数据库系统有不同的排序结构,目前常见的索引实现类型如 B-Tree index.B+-Tree index.B*-Tree index.Hash index.Bitmap index.Inverted index 等等,各种索引类型都有各自的排序算法. 虽然索引可以带来更高的查询性能,但是也存在一些缺点,例如: 创建索引和维护索引要耗费额外的时间,往往是…
1.同一服务器上数据库之间进行数据导入导出 (1).使用 SELECT INTO 导出数据 在SQL Server中使用最广泛的就是通过SELECT INTO语句导出数据,SELECT INTO语句同时具备两个功能: [1]根据SELECT后跟的字段以及INTO后面跟的表名建立空表(如果SELECT后是*, 空表的结构和FROM所指的表的结构相同): [2]将SELECT查出的数据插入到这个空表中.在使用SELECT INTO语句时,INTO后跟的表必须在数据库不存在,否则出错,下面是一个使用S…
1 概述 1.1 需求背景 图数据库 Nebula Graph 在生产环境中将拥有庞大的数据量和高频率的业务处理,在实际的运行中将不可避免的发生人为的.硬件或业务处理错误的问题,某些严重错误将导致集群无法正常运行或集群中的数据失效.当集群处于无法启动或数据失效的状态时,重新搭建集群并重新倒入数据都将是一个繁琐并耗时的工程.针对此问题,Nebula Graph 提供了集群 snapshot 的创建功能. Snapshot 功能需要预先提供集群在某个时间点 snapshot 的创建功能,以备发生灾难…
导读 身处在现在这个大数据时代,我们处理的数据量需以 TB.PB, 甚至 EB 来计算,怎么处理庞大的数据集是从事数据库领域人员的共同问题.解决这个问题的核心在于,数据库中存储的数据是否都是有效的.有用的数据,因此如何提高数据中有效数据的利用率.将无效的过期数据清洗掉,便成了数据库领域的一个热点话题.在本文中我们将着重讲述如何在数据库中处理过期数据这一问题. 在数据库中清洗过期数据的方式多种多样,比如存储过程.事件等等.在这里笔者举个例子来简要说明 DBA 经常使用的存储过程 + 事件来清理过期…
摘要:本文主要介绍 Query 层的整体结构,并通过一条 nGQL 语句来介绍其通过 Query 层的四个主要模块的流程. 一.概述 分布式图数据库 Nebula Graph 2.0 版本相比 1.0 有较大改动,最明显的变化便是,在 1.0 版本中 Query.Storage 和 Meta 模块代码不作区分放在同一个代码仓中,而 Nebula Graph 2.0 开始在架构上先解耦成三个代码仓:nebula-graph.nebula-common 和 nebula-storage,其中 neb…