将Mongodb的表导入到Hive中

1.官方文档：https://docs.mongodb.com/ecosystem/tools/hadoop/

2.Hive介绍：

　　Hive特点：　　

　　1.hive是一个数据仓库，和oracle，mysql等数据仓库相比，它底层依赖于hdfs。

　　2.hive是sql解析引擎，将sql语句转换成Map/Reduce任务，然后在hadoop hdfs上执行

　　3.hive的表其实就是一个目录，hive中表的数据就在文件中

　　Hive元数据：

　　Hive将元数据存储在数据库中（ metastore),支持mysql,derby(默认）,oracle

　　元数据：包括表的名字，表的列，分区，及属性，表的属性（是否为外部表），以及表的存放目录，不包括任何数据

3.Hive安装：

　　Hive运行模式：

　　　　1.嵌入模式：hive的元数据保存在其自带的derby中，同一时间只允许一个连接，多用于demo

　　　　2.本地模式：元数据库在mysql中，mysql与hive在同一物理机器上。

　　　　3.远程模式：同2，只是mysql运行在别的机器上。

　　本地模式的安装：用mysql存储元数据

　　　　1.安装mysql（参考官网）

　　　　2.将mysql java-driver放入$Hive_HOME/lib中

　　　　3.创建hive-site.xml,如下，注意文件名强制是这个。　　

　　　　　同时注意&在xml中需要转义处理，即&

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

  <property>

    <name>javax.jdo.option.ConnectionURL</name>

    <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&amp;connectTimeout=10000</value>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionDriverName</name>

    <value>com.mysql.jdbc.Driver</value>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionUserName</name>

    <value>hivemeta</value>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionPassword</name>

    <value>hivemeta</value>

  </property>

</configuration>

　　注意你在xml种写的user应该在mysql种有远程登录的权限

　　　　创建mysql用户并赋予全部权限，先root账户登录，再执行

　　　　grant all privileges on *.* to testhive@"%" identified by "testhive" // *.*代表所有表，“%“代表出本机以外的所有ip，testhive为用户名和密码

　　　　grant all privileges on *.* to testhive@"localhost" identified by "testhive"

　　　　flush privileges

　　3.启动mysql.

　　4.执行bin/hive,输入show tables，输出OK，则安装成功。

　　　　如果出现 FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient，或是hive中输入任何命令都无反应，则说明metastore启动失败，表示你的元数据连接方面失败。此时执行

　　　　hive -hiveconf hive.root.logger=debug,console -service metastore 启动mestore并设置错误信息级别，根据错误信息排错。

　　　　还可netstat -an|grep 3306查看mysql端口连接情况，如果hive元数据库连接成功，连接状态应该是established.

4.开始导入数据

　　　1.确保hive可以正常使用。

　　　2.参考https://github.com/mongodb/mongo-hadoop/wiki/Hive-Usage

　　　3.如果你的hive版本和我一样也是2.3.x，那么恭喜你，因为会遇到许多的classNotfoundException

　　　准备工作：在hdsf创建目录/user/hive/warehouse，并将bson文件上传至 hdfs中。启动hdfs.

　　　4.具体步骤：

　　　　　　1.下载3个包：core, hive, and the Java driver，导入到lib中

　　　　　　2.根据自己的业务规则编写sql。

　　　　　　3.执行hive -hiveconf hive.root.logger=debug,console -f xxx.sql。

　　　　　　4.如果返回ok，执行成功，否则检查错误信息。

　　　　　　5.以我hive2.3.3+mongodb4.x的环境来说，遇到的问题：

1.类org.apache.hadoop.hive.serde2.SerDe未找到，github中的MongoStorageHandler.java长期未更新，查看lib中的jar包发现这个类只

在1.x的hive中的lib才有，

解决：将hive-serde-1.2.2.jar。

2.缺少某些bson类，使用了1.x的lib中可能使用了 2.x没有的相关的bson类

解决：将bson-3.8.0.jar导入到lib中。

将Mongodb的表导入到Hive中的更多相关文章

Sqoop- sqoop将mysql数据表导入到hive报错
sqoop将mysql数据表导入到hive报错 [root@ip---- lib]# sqoop import --connect jdbc:mysql://54.223.175.12:3308/gx ...
oracle 表导入到powerDesigner 中
最近不忙,之前一直是用powerDesigner看表结构,还没自己导入过,今天试试 oracle 表导入到powerDesigner 中步骤: 1.File--->reverse Enginne ...
使用Sqoop，最终导入到hive中的数据和原数据库中数据不一致解决办法
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL , ...
Talend 将Oracle中数据导入到hive中,根据系统时间设置hive分区字段
首先,概览下任务图: 流程是,先用tHDFSDelete将hdfs上的文件删除掉,然后将oracle中的机构表中的数据导入到HDFS中:建立hive连接->hive建表->tJava获取系 ...
使用Talend Open Studio将数据分步从oracle导入到hive中
先使用Tos建立模型,将Oracle中的数据导入到本地: build job后,形成独立可以运行的程序: 将生成的zip文件,上传到hadoop集群上,有hive环境的机器上: [hive@h1 wo ...
把HDFS上的数据导入到Hive中
1. 首先下载测试数据,数据也可以创建 http://files.grouplens.org/datasets/movielens/ml-latest-small.zip 2. 数据类型与字段名称 m ...
使用sqoop将mysql数据导入到hive中
首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表 ...
如何将EXCEL表导入ORACLE数据库中？【转】
来源:https://zhidao.baidu.com/question/383828330.html?qbl=relate_question_2&word=excel%20%B1%ED%CA ...
自动将每日的日志增量导入到hive中
一:大纲介绍 1.导入方式 load data local inpath 'local_file_path' into table tbname partition (date='',hour='') ...

随机推荐

Linux Command Backup
User Structure linux command review 列出所有信号找到名字后,kill 或者用ps找到 kill同名进程每隔一秒高亮显示网络链接数的变化情况启动关闭制定网卡关 ...
开始使用Github
Gather ye rosebuds while ye may 我自己也是刚开始使用github没几天,写得不好我就写自己常用的吧 2015年9月20日下午3:19更新知乎上这个答案写得好多了
FastDfs安装文档
安装顺序 libfastcommon fdfs_tracker ==> 依赖:Gcc.libevent.perl fdfs_storage FastDFS-nginx-module nginx ...
tomcat服务器的应用总结
tomcat的安装和部署: >> Web的基本入门: |-- C/S架构:客户端和服务器: |-- B/S架构:浏览器和服务器: >> 服务器当中可以放入的资源: |-- 静态 ...
LeetCode python实现题解(持续更新)
目录 LeetCode Python实现算法简介 0001 两数之和 0002 两数相加 0003 无重复字符的最长子串 0004 寻找两个有序数组的中位数 0005 最长回文子串 0006 Z字型变 ...
Hibernate入门之注解@Column详解
前言上一节我们讲解了Hibernate的主键生成策略,本节我们继续来讲讲Hibernate中针对列的映射即@Column注解,文中若有错误之处,还望指正. @Column注解详解我们看到如上针对列 ...
czC#01
1. .net简介: .net分为.net平台及.net Framework 2..NET作用 2.转义与@ 3.类型转换 1) 隐式转换 2)显式类型转换 (待转换的目标类型)原始值
java爬虫-妹子图
一,分析 1.选择入口打开 https://www.mzitu.com/ 主页,我们发现主页有200+页图片,我们如果从首页入手,这里可能不是全部图片.这里我们打开每日更新 https://ww ...
Element-UI饿了么时间组件控件按月份周日期，开始时间结束时间范围限制参数
在日常开发中,我们会遇到一些情况,在使用Element-UI 限制用户的日期时间范围的选择控制(例如:查询消息开始和结束时间,需要限制不能选择今天之后的时间). 看了网上的一些文档,零零散散.各式各样 ...

将Mongodb的表导入到Hive中

将Mongodb的表导入到Hive中的更多相关文章

随机推荐

热门专题