Neo4j ETL工具快速上手:简化从关系数据库到图数据库的数据迁移
注:本文系从https://medium.com/neo4j/tap-into-hidden-connections-translating-your-relational-data-to-graph-d3a2591d4026翻译整理而来。
本文介绍新近推出的Neo4j ETL App,包括其安装、使用和功能特性。大纲如下:
- Neo4j ETL工具
- 添加Neo4j ETL应用程序
- 选择项目
- 检索RDBMS元数据
- Mapping.json中的数据
- 调整映射
- 导入数据
- 检查导入的数据
- 总结
Neo4j ETL工具
Neo4j ETL(Extract-Transform-Load)工具的构建使开发人员能够轻松地将关系数据加载到图数据库中。它包括3个简单的步骤来实现:
- 通过JDBC设置指定源关系数据库;
- 使用图形化的编辑工具建立数据模型映射;
- 运行生成的脚本将所有数据导入到Neo4j。
该工具很容易访问和使用。有两种方式与工具交互:
- 通过命令行,
- 通过Neo4j Desktop应用程序。
为了使用命令行,在GitHub上下载项目,并按照文档说明运行每个步骤:
https://github.com/neo4j-contrib/neo4j-etl
本文将主要介绍如何在Neo4j Desktop中使用ETL工具。
添加Neo4j ETL应用程序
要在Neo4j Desktop中添加ETL,首先需要联系Neo4j以获取激活密钥,并添加到配置文件中。下面的屏幕截图显示了如何在Neo4j Desktop中添加激活密钥。
完成后,即可以访问ETL应用程序。现在,我们需要将它添加到图形应用程序中。
首先,进入Neo4j Desktop中的Projects菜单,选择/创建一个项目。然后,点击右侧菜单窗格第一个横幅下的“添加应用程序”。当弹出窗口显示可添加的应用程序时,通过单击“添加”按钮选择ETL应用程序。如下图所示:
好,一切就绪了!现在,点击ETL App图标,就可以运行这个工具了。
选择项目
Neo4j ETL App采用类似执行向导的方式,让ETL设计和运行的每一步都直观、简洁。第一步,是选择一个要运行ETL的项目。这将在应用程序的主屏幕上打开一个新窗口,如下所示。选择要在其中工作的项目,这将告诉应用程序Neo4j数据库的位置。
设置RDBMS连接
接下来,我们需要建立一个关系数据库连接。该工具允许使用支持JDBC驱动程序的大多数类型的关系数据库,包括MySQL,PostgreSQL,Oracle,Cassandra,DB2,SQL Server,Derby等。虽然MySQL和PostgreSQL数据库内置于该工具中,但通过指定驱动程序文件可以轻松设置所有其他数据库。
在这个例子中,我将使用加载了Northwind数据集的PostgreSQL关系数据库。如果需要安装此示例数据库和数据集,那么可以下载PostgreSQL、并运行从GitHub上获得的为Northwind数据集提供的加载脚本。链接如下:
https://github.com/pthom/northwind_psql
要设置连接详细信息,首先单击左侧边栏(数据库)中的顶部图标,然后单击打开窗格中的RDBMS
选项,这将在窗口右侧显示JDBC Connection界面。
首先从“类型”下拉字段中选择数据库类型,其他一些字段将自动填充。在这个例子中,选择postgresql
选项。这里,使用默认端口和连接URL就可以了。
现在我们可以根据需要填写其他细节。在“连接名称”字段中输入任何你喜欢的名称。需要注意的是“数据库”字段必须与关系数据库中实际的名称相匹配。如果使用Postgres或MySQL以外的其他数据库,请确保选择相应的连接驱动程序。
注意:如果为关系数据库设置了用户名和密码,则必须在相应的字段中输入这些用户名和密码。但是,如果没有为关系数据库指定用户名和/或密码,则可以将其中一个或两个字段留空。
完成所有细节填写后,单击窗格底部的“ 测试并保存连接 ”按钮,这时应该会在顶部看到一个蓝色的消息栏,表示连接已成功保存。如果其中一个字段不正确或无法找到关系数据库,则会出现一条带有错误消息的红色条。
检索RDBMS元数据
好的,现在我们已经建立了关系数据库连接。接下来,选择左侧边栏中的第二个图标(导入),然后在打开的窗格中单击“导入数据”选项。这会在窗口右侧显示“检查元数据”面板。
要从关系图映射到图,我们从顶部列表中选择已加载的关系数据库连接,然后选择在底部列表中选择要写入的图形数据库。选中的数据库信息会出现在窗口右侧的FROM和TO文本中。完成后点击Start Mapping
按钮。
Mapping.json中的数据
输出会在窗口的底部显示。其中包括一些JSON文件。这是mapping.json基于源关系数据库的模式创建的文件。这是ETL过程的执行逻辑定义,因为如果决定在迁移中忽略特定的表或字段,则可以对此文件进行更改。
要查看该文件,打开Neo4j桌面窗口,转至当前项目,然后找到目标Neo4j数据库上,点击下面的“Manage”按钮。在本例中,它的名称为ETL_db。在打开i的面板上面点击“打开文件夹”按钮。
这里,应该可以看到一个postgresql_northwind_mapping.json文件(或类似命名的文件)。如果在进行下一步之前想做出任何更改,可以直接打开并编辑。这里,我我们对mapping.json不做任何修改、直接进入下一步。
调整映射
回到ETL应用程序窗口,单击右下角的“ 下一步 ”按钮,打开数据建模屏幕。可以移动屏幕右侧图表中的节点和关系,以便更好地查看它们中的每一个。
在这里,可以更改节点名称、关系、甚至属性(字段)名称和数据类型。例如,可以选择更适合的关系类型,将它们从通用名词更改为更具体的动词。本例中,将员工节点之间的关系从“ EMPLOYEES”改为“ REPORTS_TO”,因为员工可以向另一个员工(即经理)报告。
Neo4j ETL App会根据源数据库模式决定基本的数据映射,规则如下:
a. 拥有1个外键的表会映射成节点和其上的关系;
b. 拥有2个外键的表会被当做是关系表,映射成关系;
c. 拥有多于2个外键的表会被当作中间表处理,映射成拥有多个关系的节点。
数据导入
一旦对建立的映射足够满意了,可以点击右下角的“ 下一步”按钮。这将打开最后一步的屏幕,即选择导入方式。有四个选项可以使用:
- Neo4j import命令行工具 - 适用大型数据集的快速、初始、批量导入,数据库必须脱机且本地运行,已有数据将被覆盖。
- Neo4j Shell - 基于Cypher的大型数据集导入,数据库必须脱机且本地运行。
- Cypher Shell - 创建并运行可编辑的Cypher脚本,数据库需要联机。
- 直接Cypher导入 - 创建可以编辑的Cypher脚本,数据库需要联机,在客户端通过Bolt协议连接数据库并导入数据。
所以,采用何种导入方法的关键是,Neo4j数据库是否正在运行/联机,以及是否要将数据添加到现有的图数据库中。
Neo4j Import 比Cypher导入要快得多,因为它使用底层数据库文件直接、批量导入程序来初始创建数据库。但是,如果无法关闭并更换数据库,那么Cypher导入选项是更加可行的方案。
最后,单击“导入数据 ”按钮,屏幕底部的输出会显示后台命令执行的状态。完成后,窗口顶部会出现蓝色的消息栏,表示导入已成功。
检查导入的数据
要验证加载的所有内容并开始使用Neo4j中的数据,我们可以查看数据模型并从Neo4j浏览器或连接到数据库的应用程序运行查询。
在这个例子中,我们回到Neo4j桌面窗口,进入到ETL_db数据库,然后点击’ 打开浏览器 `。在浏览器命令行上执行CALL db.schema()会你显示图形数据模型。
请注意,该模型不包含连接到Customer节点的Customer Demographics节点。这是因为所使用的Postgres数据集在客户人口统计学csv文件中没有任何数据。
接下来,你可以充分运用你的Cypher技能对数据库中的数据进行查询、更新和分析,在连接的数据集中收集价值和发现新的内在价值。下面的屏幕截图显示了关于客户、托运人、订单和产品的查询结果。
总结
ETL工具的使用将大大简化从关系数据库到图数据库进行数据迁移的开发和运行。目前,ETL App还处于早期版本,许多重要的ETL特性,例如对更加复杂的映射规则的支持、并行数据导出/导入的执行等都尚未实现。因此,现阶段更加适合于作为一个建模/开发工具,简化数据映射的过程、生成可客户化的ETL脚本。
对于复杂的项目,可以参考Pentaho 的Kettle ETL工具。
如需了解更多,或者希望试用ETL App,请发姓名和工作邮箱到:joshua.yu@neo4j.com。
Neo4j ETL工具快速上手:简化从关系数据库到图数据库的数据迁移的更多相关文章
- vs转eclipse之工具快速上手篇
eclipse工具下载 首先说明,本篇内容适用于刚开始学java的同学,老手大牛等可以路过. 不得不说vs确实很强大,常用的都在安装包里集成了,几乎可以一键安装,直接使用,操作起来非常方便. ecli ...
- 使用Red Gate Sql Data Compare 数据库同步工具进行SQL Server的两个数据库的数据比较、同步
Sql Data Compare 是比较两个数据库的数据是否相同.生成同步sql的工具. 这一款工具由Red Gate公司出品,我们熟悉的.NET Reflector就是这个公司推出的,它的SQLTo ...
- Idea JAVA开发工具快速上手-常用快捷键汇总
前言: 之前一直使用Eclipse 系列开发IDE工具,由于eclipse是开源的所以,一般情况,eclipse基本上每一个java入门者的首选开发工具,其次 Myeclipse.不过现在越来越多的人 ...
- Appscan 工具快速上手教程
1.appscan扫描 (1)白盒扫描=静态扫描,扫描源代码.(2)动态扫描=黑盒扫描,用工具来模拟黑客的攻击,查看应用层的响应.产品内部会有大量受攻击的库,当我们把一个模拟攻击发给我们的应用的时 ...
- webpack构建工具快速上手指南
最近在研究react项目,接触到webpack打包工具.刚接触的时候一脸茫然,经过最近的学习,下面我来带大家开启webpack入门之旅. webpack是什么 webpack是近期最火的一款模块加载器 ...
- Git快速上手 : Tortoise工具使用
利用工具快速上手Git 别跟我说什么用命令操作Git,多高大上呀,请不要在这里跟我装逼,就如同,有个小妞在床上眉眼诱惑地,你却TM还要先看个片儿来热热身.... TortoiseGit 名字看着眼熟 ...
- MongoDB快速上手
1. MongoDB简介 MongoDB是一个跨平台的基于Key_Value键值对形式保存数据的NoSQL文档类型数据库. NoSQL(not only sql)数据库,泛指非关系型数据库. 1.1 ...
- Ansible 快速上手(转)
add by zhj: 执行Ansible(发音时,重音在最前面)命令有两种方式,一种是ad-hoc形式,另一种是playbooks,对于软件开发者来说,一般使用ad-hoc就足够了.playbook ...
- python的requests快速上手、高级用法和身份认证
https://blog.csdn.net/qq_25134989/article/details/78800209 快速上手 迫不及待了吗?本页内容为如何入门 Requests 提供了很好的指引.其 ...
随机推荐
- P3573 [POI2014]RAJ-Rally
传送门 很妙的思路 首先这是一个DAG,于是我们先在原图和反图上各做一遍,分别求出\(diss_i\)和\(dist_i\)表示从\(i\)点出发的最短路和以\(i\)为终点的最短路 我们考虑把点分为 ...
- spring cloud config搭建说明例子(一)-简单示例
服务端 ConfigServer pom.xml添加config jar <dependency> <groupId>org.springframework.cloud< ...
- .net中RSA加密解密
1.产生密钥: private static void CreateKey() { using (RSACryptoServiceProvider rsa = new RSACryptoService ...
- CSS之背景设置、字体设置、文本设置
<html> <head> <meta charset="utf-8"> <title>单行文本框与多行文本框</title& ...
- Coding Pages 服务与万网域名的配置
1071220 http://support.huawei.com/learning/NavigationAction!createNavi?navId=MW000001_term1000190292 ...
- Asp 循环输出 form 表单提交的数据
亲测asp提交form表单数据,在接收页面循环输出数据 dim var for each var in request.form response.write var&"=" ...
- tcpdump命令使用方法
NAME tcpdump - 转储网络上的数据流 总 tcpdump [ -adeflnNOpqStvx ] [ -c count ] [ -F file ] [ -i interface ] [ - ...
- 探索 DWARF 调试格式信息
https://www.ibm.com/developerworks/cn/aix/library/au-dwarf-debug-format/ 简介 DWARF(使用有属性的记录格式进行调试 )是许 ...
- Ceres
sudo apt-get install liblapack-dev libsuitesparse-dev libcxspares3.1.2 libgflags-dev libggoogle-glog ...
- HDU多校Round 5
Solved:3 rank:71 E. Everything Has Changed #include <bits/stdc++.h> using namespace std; const ...