通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据\

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据，Mysql与Hbase,Oracle与Hbase的互导最后给出命令。
一、Mysql与HDFS互导数据
环境：
宿主机器操作系统为Win7，Mysql安装在宿主机上，宿主机地址为192.168.66.96
3台虚拟机操作系统为Ubuntu-12.04.1-32位
三台虚拟机已成功安装hadoop，并实现免密钥互访，配hosts为：
192.168.66.91 masternode
192.168.66.92 slavenode1
192.168.66.93 slavenode2
/etc/profile已配置好必备环境变量HADOOP_HOME，JAVA_HOME
实验在masternode上进行，已成功连接mysql

步骤一，下载安装包：
我安装的Hadoop版本是原生hadoop-0.20.203.0，SQOOP不支持此版本，可使用CDH3版本hadoop，也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下，依然可以使用。
下载相关文件：
http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz
http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz
sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar，所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz，解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
另外，sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar，所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。

步骤二，相关配置：
修改SQOOP的文件configure-sqoop，注释掉hbase和zookeeper检查（除非你准备使用HABASE等HADOOP上的组件） #if [ ! -d "${HBASE_HOME}" ]; then
# echo “Error: $HBASE_HOME does not exist!”
# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’
# exit 1
#fi
#if [ ! -d "${ZOOKEEPER_HOME}" ]; then
# echo “Error: $ZOOKEEPER_HOME does not exist!”
# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’
# exit 1
#fi

修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile)：
添加 export SQOOP_HOME=/home/grid/sqoop
在原有PATH后添加 :$SQOOP_HOME/bin

步骤三，在mysql中建立测试用户，测试表和数据，并测试sqoop连接mysql：
创建用户sqoop并授权：
grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;

创建表空间（schema）sqoop，并创建测试表：
create table students (
id int not null primary key,
name varchar(20),
age int)

插入测试数据：
insert into students values('10001','liyang',29);
insert into students values('10002','lion',28);
insert into students values('10003','leon',26);

在masternode测试sqoop能否成功连接宿主机器上的mysql：
sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop
如果能正确显示出sqoop表空间中的students表，就说明sqoop已经可以成功连接mysql！

步骤四，将mysql中sqoop表空间的students表的三行数据导入HDFS:
启动hadoop：
start-all.sh
用jps验证启动是否成功
显示正在运行以下进程即为启动成功：
2820 SecondaryNameNode
4539 Jps
2887 JobTracker
2595 NameNode

从mysql导入数据，运行如下命令：
sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students -m 1

验证导入数据是否成功：
若导入成功，运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students
运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件：/user/grid/students/part-m-00000
运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据：
10001,liyang,29
10002,lion,28
10003,leon,26

步骤五，将HDFS中的数据导入Mysql的students表中:
首先将mysql的students表数据清空：
delete from students；

然后在masternode上执行导出数据命令：
sqoop export --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000

若成功，在mysql中会看到students表中的数据恢复了！

注意：过程中可能会因为slavenode的50010端口没打开而报错，需用root用户通过sudo ufw allow 50010命令打开端口！

二、Mysql与Hbase互导数据
将mysql的数据导入hbase的命令格式为：
sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name
其中，databaseName 和datatable 是mysql的数据库和表名，hbase_tablename是要导成hbase的表名，key_col_name可以指定datatable中哪一列作为hbase新表的rowkey，col_fam_name是除rowkey之外的所有列的列族名

例如：可通过如下命令将Mysql中的students表导入到Hbase中：
/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id
成功执行后，可在hbase中用以下命令查看结果：
hbase(main):011:0> scan 'students'
ROW                COLUMN+CELL
10001             column=stuinfo:age, timestamp=1356759994058, value=29
10001             column=stuinfo:name, timestamp=1356759994058, value=liyang
10002             column=stuinfo:age, timestamp=1356760044478, value=28
10002             column=stuinfo:name, timestamp=1356760044478, value=lion
10003             column=stuinfo:age, timestamp=1356760044478, value=26
10003             column=stuinfo:name, timestamp=1356760044478, value=leon
3 row(s) in 0.0900 seconds

三、Oracle与Hbase互导数据
将Oracle中的dept表（列为id，name，addr）导出至hbase中的dept表（行键为id，列族为deptinfo）
sqoop import --append --connect jdbcracle:thin:@192.168.66.90:1521rcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据的更多相关文章

sqoop从mysql导入到hdfs出现乱码问题
最近把hive元数据库的快照数据导入到hdfs中,以便对历史的元数据进行查询. 命令如下: sqoop import -D mapred.job.queue.name=do.production -- ...
教程 | 使用Sqoop从MySQL导入数据到Hive和HBase
基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+115 S ...
Sqoop_具体总结使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出
一.使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYWFyb25oYWRvb3A=/ ...
sqoop命令，mysql导入到hdfs、hbase、hive
1.测试MySQL连接 bin/sqoop list-databases --connect jdbc:mysql://192.168.1.187:3306/trade_dev --username ...
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
分布式计算（二）使用Sqoop实现MySQL与HDFS数据迁移
近期接触了一个需求,业务背景是需要将关系型数据库的数据传输至HDFS进行计算,计算完成后再将计算结果传输回关系型数据库.听到这个背景,脑海中就蹦出了Sqoop迁移工具,可以非常完美的支持上述场景. 当 ...
使用sqoop将MySQL数据库中的数据导入Hbase
使用sqoop将MySQL数据库中的数据导入Hbase 前提:安装好 sqoop.hbase. 下载jbdc驱动:mysql-connector-java-5.1.10.jar 将 mysql-con ...
Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
Hadoop生态组件Hive，Sqoop安装及Sqoop从HDFS/hive抽取数据到关系型数据库Mysql
一般Hive依赖关系型数据库Mysql,故先安装Mysql $: yum install mysql-server mysql-client [yum安装] $: /etc/init.d/mysqld ...

随机推荐

golang文件读写三种方式——bufio，ioutil和os.create
package main import ( "bufio" "fmt" "io/ioutil" "os" ) func ...
CodeForces - 743D Chloe and pleasant prizes
Chloe and pleasant prizes time limit per test 2 seconds memory limit per test 256 megabytes input st ...
poj--2031--Building a Space Station（prime）
Building a Space Station Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 6635 Accepte ...
Cuckoo for Hashing
http://acm.sdut.edu.cn/sdutoj/problem.php?action=showproblem&problemid=2719 #include <stdio.h ...
8.20noip模拟题
2017-8-20 NOIP模拟赛 by coolyangzc 共3道题目,时间3.5小时题目名机器人数列虫洞源文件 robot.cpp/c/pas seq.cpp/c/pas holes. ...
可持久化Treap(fhq Treap，非旋转式Treap)学习(未完待续)
简介: Treap,一种表现优异的BST 优势: 其较于AVL.红黑树实现简单,浅显易懂较于Splay常数小,通常用于树套BST表现远远优于Splay 或许有人想说S ...
RFC1867 HTTP file upload
RFC1867 HTTP file upload RFC1867 is the standard definition of that "Browse..." button tha ...
Android Studio and Gradle安装心得
安装基于Eclipse 的ADT一段时间,感觉确实有很多功能不足,通过网上资料,决定改向AS. AS下载了最新的2.3版本,它不分64位与32位,网上说有单独版是瞎扯蛋.只要启动不同的EXE就行了. ...
Clustered Index Scan 与 Clustered Index Seek
Clustered Index Scan 与 Clustered Index Seek 在利用 SQL Server 查询分析器的执行计划中,会有许多扫描方式,其中就有 Clustered Index ...
MatLab之Simulink之simple model
Use Simulink to model a system and then simulate the dynamic behavior of that system. 1 Open in Comm ...

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据的更多相关文章

随机推荐

热门专题