sqoop参数详解
从RDBMS到HIVE:
sqoop import
--connect jdbc:oracle:thin:@//192.168.156.111/test--username test
--password test
--query select * from it.t_test where inserttime >= to_date('${date1}','yyyy-mm-dd') and inserttime < to_date('${date2}','yyyy-mm-dd') and $CONDITIONS
--hive-overwrite
--hive-table it.test
--target-dir hdfs://ns1/user/hive/warehouse/it.db/t_test
--null-string \\N
-null-non-string \\N
--fields-terminated-by \001
--delete-target-dir
--split-by emp_no
-m
1
参数详解:
--connect 关系型数据库连接
--username 关系型数据库连接用户名
--password 关系型数据库连接密码
--table 关系型数据库表
--query 自定义sql查询,sql结束要加$CONDITIONS
--hive-overwrite 覆盖之前的分区写入数据
--hive-drop-import-delims 导入hive的数据某列中如果有换行符或者回车键可以删除
--hive-table hive的表
--hive-database hive的数据库
--hive-partition-key hive的分区字段
--hive-partition-value hive的分区值
--fields-terminated-by 导入到hdfs时,hdfs文件的分隔符
--input-fields-terminated-by 从hdfs导出时,hdfs文件的分隔符
--export-dir 从hdfs导出时的源目录
--target-dir 导入到hdfs时的目标目录
--delete-target-dir 如果hdfs的目录已经存在,则先删除
--direct 快速模式,使用mysql自带的mysqldump导出数据
--split-by 如果-m参数不为1,一定要加上该参数而且最好是数值类型,否则会报错
-m 指定map的数量,也是生成文件的数量
--split-by 一般和参数-m放在一起使用,-m表示使用几个map并发执行,--split-by表示拆分数据的字段。
例如:-m设置为2,数据有100条,sqoop会首先获取拆分字段的最大值和最小值,间隔为100/2=50,那么第一个map执行拆分字段为(1,50)之间的数据,第二个map执行拆分字段为(50,100)之间的数据
NOTES:
拆分字段默认为主键;
拆分字段数据类型最好为int,如果为其他类型,将-m参数设置为1,--split-by不设置;
拆分字段的值最好均匀分布,否则会造成数据倾斜的问题。
HCatalog配置:
--create-hcatalog-table 指定需要创建表,如果不指定,默认不创建,若指定且创建的表已经存在就会报错
--hcatalog-table 要导出的目标表
--hcatalog-storage-stanza 指定存储格式,该参数值会拼接到create table的命令中。默认:stored as rcfile。
--hcatalog-partition-keys 指定分区字段,多个字段用逗号分隔开(hive-partition-key的加强版)
--hcatalog-partition-values 指定分区值,多分区值用逗号分隔开(hive-partition-value的加强版)
sqoop参数详解的更多相关文章
- Nginx主配置参数详解,Nginx配置网站
1.Niginx主配置文件参数详解 a.上面博客说了在Linux中安装nginx.博文地址为:http://www.cnblogs.com/hanyinglong/p/5102141.html b.当 ...
- iptables参数详解
iptables参数详解 搬运工:尹正杰 注:此片文章来源于linux社区. Iptalbes 是用来设置.维护和检查Linux内核的IP包过滤规则的. 可以定义不同的表,每个表都包含几个内部的链,也 ...
- chattr的常用参数详解
chattr的常用参数详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在实际生产环境中,有的运维工程师不得不和开发和测试打交道,在我们公司最常见的就是部署接口.每天每个人部署的 ...
- mha配置参数详解
mha配置参数详解: 参数名字 是否必须 参数作用域 默认值 示例 hostname Yes Local Only - hostname=mysql_server1, hostname=192.168 ...
- $.ajax()方法所有参数详解;$.get(),$.post(),$.getJSON(),$.ajax()详解
[一]$.ajax()所有参数详解 url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. type: 要求为String类型的参数,请求方式(post或get)默认为get.注 ...
- linux PHP 编译安装参数详解
linux PHP 编译安装参数详解 ./configure --prefix=/usr/local/php --with-config-file-path=/usr/local/php/etc -- ...
- 【转】jqGrid 各种参数 详解
[原文]http://www.cnblogs.com/younggun/archive/2012/08/27/2657922.htmljqGrid 各种参数 详解 JQGrid JQGrid是一个 ...
- HTML滚动字幕代码参数详解及Js间隔滚动代码
html文字滚动代码 <marquee style="WIDTH: 388px; HEIGHT: 200px" scrollamount="2" dire ...
- mysql5.6主从参数详解
mysql5.6的主从相当的不错,增加了不少参数,提升了主从同步的安全和效率,以下是mysql5.6主从参数详解. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...
随机推荐
- Oracle创建表空间、创建用户,给用户分配表空间以及可操作权限
创建表空间一共可分为四个步骤 具体脚本如下: 第1步:创建临时表空间 create temporary tablespace yd_temp tempfile 'D:\oracledata ...
- Vue--理解非prop特性
所谓非 prop 特性,就是指它可以直接传入组件,而不需要定义相应的 prop. 尽管为组件定义明确的 prop 是推荐的传参方式,组件的作者却并不总能预见到组件被使用的场景.所以,组件可以接收任意传 ...
- weblogic连接池
1.在 使用JDBC连接池的过程中,最常见的一个问题就是连接池泄漏问题.一个池里面的资源是有限的,应用用完之后应该还回到池中,否则池中的资源会被耗尽. WebLogic Server提供了一个Inac ...
- 深入理解计算机系统 第十二章 并发编程 part1 第二遍
三种构造并发程序的方法及其优缺点 1.进程 用这种方法,每个逻辑控制流都是一个进程,由内核来调度和维护.因为进程有独立的虚拟地址空间,想要和其他流通信,控制流必须使用某种显式的进程间通信机制. 优点: ...
- ext grid添加2行topbar
bbar: paginToolbar(this.getStore()), dockedItems: [{ xtype: 'toolbar', dock: 'top', items: me.create ...
- Docker安装&java-Zookeeper进行操作
Docker安装Zookeeper下载Zookeeper镜像 docker pull zookeeper 启动容器并添加映射 docker run --privileged=: -d zookeepe ...
- Java经典基础与高级面试36题和答案
1.”static”关键字是什么意思?Java中是否可以覆盖(override)一个private或者是static的方法? “static”关键字表明一个成员变量或者是成员方法可以在没有所属的类的实 ...
- payload免杀之Installutil.exe&csc.exe利用
0x00 前言 C#的在Windows平台下的编译器名称是Csc.exe.Installutil.exe工具是一个命令行实用程序,允许您通过执行指定程序集中的安装程序组件来安装和卸载服务器资源,可以执 ...
- webconfig中的&符号问题解决
第一种解决方案 解决方法是将“&”,用“*”代替,取的时候再替换 第二种解决方案 用“&”替换“&”
- 解决办法:Message: 对实体 "useUnicode" 的引用必须以 ';' 分隔符结尾
Hibernate 5.3.1 INFO: HHH000206: hibernate.properties not foundException in thread "main" ...