使用Mongo dump 将数据导入到hive

概述：使用dump 方式将mongo数据导出，上传到hdfs,然后在hive中建立外部表。

1. 使用mongodump 将集合导出

mongodump --host=localhost:27017 --db=mydb --collection=users --out=/tmp/root/mongodump0712

[root@slave2 root]# mongodump --host=localhost:27017 --db=mydb --collection=users --out=/tmp/root/mongodump0712

2018-07-12T10:07:27.894+0800 writing mydb.users to

2018-07-12T10:07:27.896+0800 done dumping mydb.users (2 documents)

[root@slave2 root]# cd /tmp/root

[root@slave2 root]# ls

3604abd2-a359-4c53-a7b4-e4ea84185801 3604abd2-a359-4c53-a7b4-e4ea841858017799130181720133073.pipeout dump hive.log hive.log.2018-07-11 mongodump0712

[root@slave2 root]# ll

total 624

drwx------. 2 root root 6 Jul 12 09:34 3604abd2-a359-4c53-a7b4-e4ea84185801

-rw-r--r--. 1 root root 0 Jul 12 09:34 3604abd2-a359-4c53-a7b4-e4ea841858017799130181720133073.pipeout

drwxr-xr-x. 5 root root 44 Jul 12 10:04 dump

-rw-r--r--. 1 root root 88700 Jul 12 09:39 hive.log

-rw-r--r--. 1 root root 547126 Jul 11 21:07 hive.log.2018-07-11

drwxr-xr-x. 3 root root 18 Jul 12 10:07 mongodump0712

[root@slave2 root]# cd mongodump0712/

[root@slave2 mongodump0712]# ls

mydb

[root@slave2 mongodump0712]# cd mydb

[root@slave2 mydb]# ls

users.bson users.metadata.json

2. 将dump文件上传到hdfs

hdfs dfs -mkdir /user/hive/warehouse/mongo

hdfs dfs -put /tmp/root/mongodump0712/mydb/users.bson /user/hive/warehouse/mongo/

[root@slave2 mydb]# hdfs dfs -mkdir /user/hive/warehouse/mongo

[root@slave2 mydb]# hdfs dfs -put /tmp/root/mongodump0712/mydb/users.bson /user/hive/warehouse/mongo/

3. 创建表并测试

hive> create EXTERNAL table muser

> (

> id string,

> userid string,

> age bigint,

> status string

> )

> row format serde 'com.mongodb.hadoop.hive.BSONSerDe'

> WITH SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id","userid":"user_id","age":"age","status":"status"}')

> stored as inputformat 'com.mongodb.hadoop.mapred.BSONFileInputFormat'

> outputformat 'com.mongodb.hadoop.hive.output.HiveBSONFileOutputFormat'

> location '/user/hive/warehouse/muser';

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:hdfs://ns1/user/hive/warehouse/muser is not a directory or unable to create one)

hive> create EXTERNAL table muser

> (

> id string,

> userid string,

> age bigint,

> status string

> )

> row format serde 'com.mongodb.hadoop.hive.BSONSerDe'

> WITH SERDEPROPERTIES('mongo.columns.mapping'='{"id":"_id","userid":"user_id","age":"age","status":"status"}')

> stored as inputformat 'com.mongodb.hadoop.mapred.BSONFileInputFormat'

> outputformat 'com.mongodb.hadoop.hive.output.HiveBSONFileOutputFormat'

> location '/user/hive/warehouse/mongo';

Time taken: 0.123 seconds

hive> select * from muser;

5b456e33a93daf7ae53e6419 abc123 58 D

5b45705ca93daf7ae53e8b2a bcd001 45 C

Time taken: 0.181 seconds, Fetched: 2 row(s)

使用Mongo dump 将数据导入到hive的更多相关文章

把HDFS上的数据导入到Hive中
1. 首先下载测试数据,数据也可以创建 http://files.grouplens.org/datasets/movielens/ml-latest-small.zip 2. 数据类型与字段名称 m ...
用sqoop将mysql的数据导入到hive表中
1:先将mysql一张表的数据用sqoop导入到hdfs中准备一张表需求将 bbs_product 表中的前100条数据导导出来只要id brand_id和 name 这3个字段数据存 ...
使用 sqoop 将mysql数据导入到hive表（import）
Sqoop将mysql数据导入到hive表中先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() ...
使用sqoop将mysql数据导入到hive中
首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表 ...
大数据入门到精通19--mysql 数据导入到hive数据中
一.正常按照数据库和表导入 \\前面介绍了通过底层文件得形式导入到hive的表中,或者直接导入到hdfs中,\\现在介绍通过hive的database和table命令来从上层操作.sqoop impo ...
Talend 将Oracle中数据导入到hive中,根据系统时间设置hive分区字段
首先,概览下任务图: 流程是,先用tHDFSDelete将hdfs上的文件删除掉,然后将oracle中的机构表中的数据导入到HDFS中:建立hive连接->hive建表->tJava获取系 ...
数据导入(一):Hive On HBase
Hive集成HBase可以有效利用HBase数据库的存储特性,如行更新和列索引等.在集成的过程中注意维持HBase jar包的一致性.Hive与HBase的整合功能的实现是利用两者本身对外的API接口 ...
Sqoop-将MySQL数据导入到hive orc表
sqoop创建并导入数据到hive orc表 sqoop import \ --connect jdbc:mysql://localhost:3306/spider \ --username root ...
如何将数据导入到hive中
可以通过多种方式将数据导入hive表 1.通过外部表导入用户在hive上建external表,建表的同时指定hdfs路径,在数据拷贝到指定hdfs路径的同时,也同时完成数据插入external表. ...

随机推荐

VS打包项目详细解析
使用VS打包项目,其实很多简单.微软官方文档很详尽,故不再细述,只列出相关链接 1创建安装项目如何:创建或添加部署项目 2 添加项目输出如何:向部署项目中添加项 3添加用户界面部署中的用户 ...
求Sn=a+aa+aaa+aaaa+aaaaa的前5项之和，其中a是一个数字
思路:所求和为一个数字的前n项和,例如前4项和就是从4+44+444+4444,一直加到第4位,为4个4.所以可以用一个循环来表示每一项的数字,加到前几项就循环几次.然后将每项进行相加就可以求出总和. ...
各业务场景下的技术推荐【.net】
后端: 1.webapi的token加密: 1)JWT验证算法,不推荐:2)RSA 2.集合的扩展:C5.dll 3.对象映射工具:AutoMapper .TinyMapper 4.任务调度框架:Q ...
在pypi上发布python包详细教程
使用Python编程中Python的包安装非常方便,一般都是可以pip来安装搞定:pip install <package name>,我们自己写的python也可以发布在pypi上,很简 ...
反转链表 II
反转从位置 m 到 n 的链表.请使用一趟扫描完成反转. 说明:1 ≤ m ≤ n ≤ 链表长度. 示例: 输入: 1->2->3->4->5->NULL, m = 2, ...
Spring Cloud Stream
Spring Cloud Stream是Spring Cloud的组件之一,是一个为微服务应用构建消息驱动能力的框架. 1.导入引用 <dependency> <groupId> ...
Java WebService 简单实例[转载]
[注意,本文转载自 http://hyan.iteye.com/ ] 一.准备工作(以下为本实例使用工具) 1.MyEclipse10.7.1 2.JDK 1.6.0_22 二.创建服务端 1 ...
RedHat6.5安装Spark集群
版本号: RedHat6.5 RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8 http://blog.csdn.net/chongxin1/arti ...
关于java的一些小知识（课程作业01）
1,在java源代码中加空格注释不会影响程序的编译速度. 2,一个java类文件中真的只能有一个公有类吗? 如果只在第一个public类里面定义实体,或者两个都不定义并没有报错且程序可以运行.每个编译 ...
GetPostBackEventReference加RaisePostBackEvent实现自定义控件中回调传参
; //回调函数,回调参数值:eventArgument public void RaisePostBackEvent(string eventArgument) { ...

使用Mongo dump 将数据导入到hive

使用Mongo dump 将数据导入到hive的更多相关文章

随机推荐

热门专题