sqoop 使用笔记

好久没有更新自己技术博客，现在开始工作了，把自己遇到的问题写到这里边来

主要把自己的问题写出来，分享给大家

sqoop 导入数据时候有时候会遇到mysql 中有sql 中的关键字这时候如果直接导出到hive 中会出现错误例如下面的例子

这时候会出现错误可以使用--query 来解决问题

例如：

sqoop-import -D mapreduce.map.memory.mb=256 -D mapreduce.map.java.opts=-Xmx128m --connect ''--username '' --password '' --hive-import --hive-overwrite --hive-database databases_name --hive-table table_name --query 'select doctor_id,uid as uid1 from tb_doctor WHERE $CONDITIONS ' --where "1=1" --num-mappers 1 --split-by '' --driver com.mysql.jdbc.Driver --direct --target-dir '' -- --skip-tz-utc

当导入到mysql 中数据的时候如果遇到主键自增的时候这个时候可以使用 --columns 加上列名

例如 --columns "type,name,user_id" 等

当sqoop 从mysql 中导入到hive 中数据库中有时候mysql 中数据库比较大这个会出现oom 的现象这个时候可以调节参数例如第一个列子中这个 -D 用来指定的内存的参数一般来调节三个参数第一个是 -D mapreduce.map.memory.mb 用来调节整个maptask 的参数，-D mapreduce.map.java.opts=-Xmx128m 整个是用来调节java 中堆的内存大小 -Dmapreduce.task.io.sort.mb=64 用来制定环形缓冲区的大小一般调节这三个参数如果内存还不够的话这时候要调节yarn 中对于每一个容器的内存大小，然后相应调大maptask 的内存大小，和堆的大小和环形缓冲区的大小大概的关系就是yarn 制定容器的大小 >maptask 制定的内存>堆内存的大小

这是为什么呢我们知道sqoop 底层实际上就是jdbc 和mapreduce 的封装他只执行map的过程所以在制定sqoop 的内存的参数的时候实际就是配置mapredcue 的参数。所以在调节sqoop 的时候实际就是调节mapreduce 的参数。

当数据库表中数据比较大的时候这个时候会导致导出跑出异常这个时候可以使用--query 制定导入一部分然后到某一个分区这个时候就可以解决这个问题如下例子

sqoop-import -D mapreduce.map.memory.mb=6000 -D mapreduce.map.java.opts=-Xmx5120m -Dmapreduce.task.io.sort.mb=2400 --connect connection_name --username username --password password --hive-import --hive-overwrite --hive-database database_name --hive-table table_name --query 'select uid,username from table_name where type=8 and 1=1 and $CONDITIONS' --split-by tb_name .uid --hive-partition-key typedata --hive-partition-value 8 --num-mappers 4 --driver com.mysql.jdbc.Driver --direct --target-dir /user/hive/tb_msg_0 -- --skip-tz-utc

用--hive-partition-key 和--hive-partition-value 来制定分区就可以减少导入的数据量这个时候不至于导致内存不足。

sqoop 使用笔记的更多相关文章

Flume+Sqoop+Azkaban笔记
大纲(辅助系统) 离线辅助系统数据接入 Flume介绍 Flume组件 Flume实战案例任务调度调度器基础市面上调度工具 Oozie的使用 Oozie的流程定义详解数据导出 sqoop基础 ...
【大数据】Sqoop学习笔记
第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MyS ...
sqoop学习笔记
#################################################################################################### ...
Sqoop使用笔记(转载)
Sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据.通过sqoop,可以方便的将数据从关系数据库导入到HDFS,或将数据从HDFS导出到关系数据库. 关于Sqoop 官网S ...
Sqoop学习笔记_Sqoop的基本使用二（sqoop的import与export）
Sqoop抽取从mysql抽取到hive sqoop抽取到mysql一样有两种方式一种是用command line的方式,一种是用sqoop opt文件调用的方式.(由于两种sqoop一已经记录了,现 ...
Sqoop学习笔记_Sqoop的基本使用一
Sqoop 关系DB与Hive/HDFS/HBase导入导出的Mapreduce框架. http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh ...
大数据之sqoopCDH 备份
Sqoop课程笔记一.概述 1.什么是sqoop? Hadoop的优势在于对数据的存储和处理,相比以前传统的数据库,在处理较较多的数据时,传统数据行业通过提升单机性能以提高处理性能,而且性价比随着性 ...
Hadoop学习笔记—18.Sqoop框架学习
一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易.Apache Sqoop正在加 ...
sqoop笔记
adoop学习笔记—18.Sqoop框架学习一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数 ...

随机推荐

MySQL InnoDB Update和Crash Recovery流程
MySQL InnoDB Update和Crash Recovery流程概要信息首先介绍了Redo,Undo,Log Sequence Number (LSN),Checkpoint,Rollba ...
openssl交叉编译记录
本次任务是要完毕嵌入式Linux下对openssl程序的支持. 我的开发环境:ARM9开发板和嵌入式Linux操作系统.装有Linux系统(我的是ubuntu9.04)的PC机一台.串口和 ...
【WebLogic】weblogic调优
版权声明:本文为博主原创文章(原文:blog.csdn.net/clark_xu 徐长亮的专栏),未经博主同意不得转载. https://blog.csdn.net/u011538954/articl ...
转:// 再说 Oracle RAC services
应用程序工作负载在Oracle 10g中可以被定为services,也称之为服务,能够在单实例中使用,也能够在RAC中单独使用和管理.因此整个数据库负载能够被分割为多个不同的services,通过管理 ...
ethereum/EIPs-1271 smart contract
https://github.com/PhABC/EIPs/blob/is-valid-signature/EIPS/eip-1271.md Standard Signature Validation ...
springboot读取配置文件的顺序(转)
也就是说:springboot会默认先加载项目外部的配置文件,覆盖内部的配置文件!所以导致项目一直使用的错误的配置! 强烈建议:不要把项目和application.properties配置文件放在一起
jvm内存模型中-栈，方法区，程序计数器是线程安全的
文章转自 https://www.cnblogs.com/myna/p/7567889.html 引文 JDK7及之前版本的方法区(Method Area)和Java堆一样,是各个线程共享的内存区域 ...
文件上传之Servlet
导包 commons-fileupload-1.3.1.jar commons-io-2.2.jar import java.io.File; import java.io.FileOutputStr ...
深入浅出的webpack构建工具---HappyPack优化构建(九)
阅读目录一:什么是HappyPack? 作用是什么? 二:如何在配置中使用HappyPack? 回到顶部一:什么是HappyPack? 作用是什么? Webpack是允许在NodeJS中的,它是单 ...
PAT A1108 Finding Average （20 分）——字符串，字符串转数字
The basic task is simple: given N real numbers, you are supposed to calculate their average. But wha ...

sqoop 使用笔记

sqoop 使用笔记的更多相关文章

随机推荐

热门专题