Sqoop是用来实现结构型数据(如:关系型数据库RDBMS)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,
同时也借助MapReduce实现容错。

一、将MySQL中的表迁移到HDFS上(RDBMS —> HDFS)

  1. 导入MySQL"db_sqoop.mysql_emp表"所有数据到HDFS中;
    sqoop import \
    --connect jdbc:mysql://hadoopone:3306/db_sqoop \
    --username root \
    --password root \
    --table mysql_emp \
    --target-dir /data/hdfs_sqoop \
    --delete-target-dir \
    --num-mappers 1 \
    --fields-terminated-by '\t'

    --table mysql中目标表;
    --target-dir hdfs存放目录;
    --delete-target-dir:若hdfs存放目录已存在,则自动删除;
    --num-mappers:指定maptask数量;
    --fields-terminated-by:各字段间的分隔符;

  2. 将MySQL的查询结果导入HDFS上;
    sqoop import \
    --connect jdbc:mysql://hadoopone:3306/db_sqoop \
    --username root \
    --password root \
    --target-dir /data/hdfs_sqoop \
    --delete-target-dir \
    --num-mappers 1 \
    --fields-terminated-by '\t' \
    --query 'SELECT emp_no,first_name,last_name FROM mysql_emp WHERE gender="M" and $CONDITIONS;'

    ”$CONDITIONS"表示将查询结果带回。

  3. 使用sqoop的关键字筛选查询后的结果导入到HDFS;
    sqoop import \
    --connect jdbc:mysql://hadoopone:3306/db_sqoop \
    --username root \
    --password root \
    --table mysql_emp \
    --target-dir /data/hdfs_sqoop \
    --delete-target-dir \
    --num-mappers 1 \
    --fields-terminated-by '\t' \
    --where "gender='F'"
  4. 从MySQL导入指定’列’到HDFS上;
  5. sqoop import \
    --connect jdbc:mysql://hadoopone:3306/db_sqoop \
    --username root \
    --password root \
    --table mysql_emp \
    --target-dir /data/hdfs_sqoop \
    --delete-target-dir \
    --num-mappers 1 \
    --fields-terminated-by '\t' \
    --columns emp_no,gender,birth_date

二、MySQL  ——>   Hive (RDBMS ——> HIVE)

  1. 将MySQL中的表导入Hive中;
    sqoop import \
    --connect jdbc:mysql://hadoopone:3306/db_sqoop \
    --username root \
    --password root \
    --num-mappers 1 \
    --table mysql_emp \
    --hive-import \
    --hive-table db_hive_sqoop.hive_emp \
    --fields-terminated-by '\t' \
    --hive-overwrite \
    --delete-target-dir

三、MySQL –> Hbase(RDBMS ——> Hbase)

  1. 将MySQL中的表导入Hbase中;
  2. sqoop import \
    --connect jdbc:mysql://hadoopone:3306/db_sqoop \
    --username root \
    --password root \
    --table book \
    --columns "id,name,price" \
    --column-family "info" \
    --hbase-create-table \
    --hbase-row-key "id" \
    --hbase-table "hbase_book" \
    --num-mappers 1 \
    --split-by id

四、HDFS/Hive —> MySQL (HDFS/Hive —> RDBMS)

  1. 在MySQL中创建对应的表,然后使用如下语句;
  2. sqoop export \
    --connect jdbc:mysql://hadoopone:3306/db_sqoop \
    --username root \
    --password root \
    --table myqsl_dept \
    --num-mappers 1 \
    --export-dir /usr/hive/warehouse/db_hive_sqoop.db/hive_dept \
    --input-fields-terminated-by '\t'

五、导出MySQL表结构到hive

  1. 导出MySQL表结构;
    sqoop create-hive-table \
    --connect jdbc:mysql://hadoopone:3306/db_sqoop \
    --username root \
    --password root \
    --table mysql_stu \
    --hive-database db_hive_sqoop \
    --hive-table hive_stu

Sqoop迁移Hadoop与RDBMS间的数据的更多相关文章

  1. Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具

    Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS.Hive.HBase)与传统关系数据库(MySql.Oracle等)间进行数据传递工作.Sqoop最早是作为Hadoop的一个第三 ...

  2. Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递

    http://niuzhenxin.iteye.com/blog/1706203   Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql.postgresql.. ...

  3. 阿里云 RDS实例间的数据迁移

    使用数据传输DTS可以实现两个RDS实例间的数据迁移.对于支持增量迁移的存储引擎,还可以使用DTS在源RDS实例不停服的情况下,将数据迁移到目标RDS实例.目前对于RDS不同存储引擎,只支持同构迁移( ...

  4. Hadoop基础之初识大数据与Hadoop

    前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配 ...

  5. 关于Hadoop结合RDBMS应用的一些思考

    最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习.安装配置优化以及一些框架结构的设计.在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下. ...

  6. hadoop集群间的hdfs文件拷贝

    1.背景 部门有个需求,在网络互通的情况下,把现有的hadoop集群(未做Kerberos认证,集群名为:bd-stg-hadoop)的一些hdfs文件拷贝到新的hadoop集群(做了Kerberos ...

  7. PHP+Hadoop+Hive+Thrift+Mysql实现数据统计分析

    原址:http://www.cnblogs.com/wicub/p/6094045.html   安装 Hadoop安装: http://www.powerxing.com/install-hadoo ...

  8. 小菜学习Winform(五)窗体间传递数据

    前言 做项目的时候,winfrom因为没有B/S的缓存机制,窗体间传递数据没有B/S页面传递数据那么方便,今天我们就说下winfrom中窗体传值的几种方式. 共有字段传递 共有字段传递实现起来很方便, ...

  9. View与Control间的数据交互

    View与Control间的数据交互 1.ViewBag.Name ="Name1" 2.ViewData["VD"] = "view data&qu ...

随机推荐

  1. php-fpm 解析

    以下内容转自:https://blog.csdn.net/u010785091/article/details/78705690 有一些工具一直在用,却从来也不知道这些东西是什么. 现在想想还是梳理一 ...

  2. 本地搭建GitLab

    现在很多企业都开始使用gitLab,因为他的权限管理强大,后台项目管理也很方便.下面就介绍本地搭建方法: 为避免损失,建议在虚拟机测试.虚拟机最低配置(内存2G,cpu:2核,硬盘:20G) 1.安装 ...

  3. mysql查询语句常用字段操作函数

    一.concat()函数 1.功能:将多个字符串连接成一个字符串. 2.语法:concat(str1, str2,...) 返回结果为连接参数产生的字符串,如果有任何一个参数为null,则返回值为nu ...

  4. CSS的nth-of-type和nth-child的区别

    <!--源代码--><!DOCTYPE html> <html lang="en"> <head> <meta charset ...

  5. java架构师之路,享学课堂VIP课程视频下载

    享学课堂并发编程:百度网盘 链接:https://pan.baidu.com/s/10O8oXC0yNRArUh3WKkXayg 提取码:o01s 更多视频获取方式请留言

  6. ORM中的一对一和多对多

    ORM中的一对一和多对多 Django ORM  ORM 一对一 什么时候用一对一? 当 一张表的某一些字段查询的比较频繁,另外一些字段查询的不是特别频繁 把不怎么常用的字段 单独拿出来做成一张表 然 ...

  7. [BZOJ 4890][TJOI2017]城市

    传送门 $ \color{green} {solution : }$ 我们可以暴力枚举断边,然后 $ O(n) $ 的跑一次换根 $ dp $,然后复杂度是 $ O(n * n) $ 的 #inclu ...

  8. js中元素、触点等各种距离的总结

    每次碰到元素滚动呀.鼠标拖动呀之类的通过对比位置来触发事件的需求时,都要花很多时间来百度怎么取到自己想要的那个值,什么scrollTop.offset等等,今天就把这些东西总结一下,以后再使用的话,就 ...

  9. C# LINQ学习笔记

    LINQ,语言集成查询: LINQ TO SQL,同EF,NHibernate一样,也是一种ORM框架: 1. 入门应用示例: static public void LinqBasic() { var ...

  10. Python学习 day13

    一.可迭代对象和迭代器 1.回顾可以被for循环的对象 list.dic.str.set.tuple.文件句柄f.range().enumerate() 只有可迭代对象才能被for循环,当我们遇到一个 ...