最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右,老板给我提供了使用 spark 导数据的思路,学习整理了一个多星期,终于实现了sqoop的主要功能。

  这里我使用的是pyspark完成的所有操作。

  

  条件:hdfs平台,pyspark,ubuntu系统

  运行:我这里是在 /usr/bin 目录下(或者指定在此目录下 )运行的python文件,也可以使用系统自带的pyspark

  1. ./spark-submit --jars "/home/engyne/spark/ojdbc7.jar" --master local /home/engyne/spark/SparkDataBase.py

  其中--jars 是指定连接oracle的驱动,ojdbc7.jar对应的是oracle12版本,--master local /...指定的是运行的python文件

  注意:我的代码没有解决中文问题,所以不管是注释还是代码中都不能出现中文,记得删除!!!

  1、pyspark连接oracle,导数据到hive(后面的代码需要在此篇代码基础上进行,重复代码不再copy了)

  1. import sys
  2. from pyspark.sql import HiveContext
  3. from pyspark import SparkConf, SparkContext, SQLContext
  4.  
  5. conf = SparkConf().setAppName('inc_dd_openings')
  6. sc = SparkContext(conf=conf)
  7. sqlContext = HiveContext(sc)
  8.  
  9. #以下是为了在console中打印出表内容
  10. reload(sys)
  11. sys.setdefaultencoding("utf-8")
  12.  
  13. get_df_url = "jdbc:oracle:thin:@//192.168.1.1:1521/ORCLPDB"
  14. get_df_driver = "oracle.jdbc.driver.OracleDriver"
  15. get_df_user = "xxx"
  16. get_df_password = "xxx"
  17.  
  18. df = sqlContext.read.format("jdbc") \
  19. .option("url", get_df_url) \
  20. .option("driver", get_df_driver) \
  21. .option("dbtable", "STUDENT") \
  22. .option("user", get_df_user).option("password", get_df_password) \
  23. .load()
  24. #df.show() #可以查看到获取的表的内容,默认显示20行
  25. sqlContext.sql("use databaseName") #databaseName指定使用hive中的数据库
  26. #创建临时表
  27. df.registerTempTable("tempTable")
  28. #创建表并写入数据
  29. sqlContext.sql("create table STUDENT as select * from tempTable")

  2、pyspark在hive中创建动态分区表

  1. #修改一下hive的默认设置以支持动态分区
  2. sqlContext.sql("set hive.exec.dynamic.partition=true")
  3. sqlContext.sql("set hive.exec.dynamic.partition.mode=nonstrict")
  4. #设置hive支持创建分区文件的最大值
  5. sqlContext.sql("SET hive.exec.max.dynamic.partitions=100000")
  6. sqlContext.sql("SET hive.exec.max.dynamic.partitions.pernode=100000")

  这里需要先手动创建分区表,我使用dataframe的dtypes属性获取到表结构,然后循环拼接表的每个字段在hive中所对应的类型

  最后写入表数据的代码是:

  1. sqlContext.sql("insert overwrite table STUDENT partition(AGE) SELECT ID,NAME,UPDATETIME,AGE FROM tempTable"

  3、实现增量导入数据

  我这里使用了MySql数据库,用来存储增量导入的信息,创建表(job)

  1. DROP TABLE IF EXISTS `job`;
  2.  
  3. CREATE TABLE `job` (
  4. `id` int(10) NOT NULL AUTO_INCREMENT,
  5. `database_name` varchar(50) DEFAULT NULL, --数据库名称
  6. `table_name` varchar(100) DEFAULT NULL, --需要增量导入的表名
  7. `partition_column_name` varchar(100) DEFAULT NULL, --分区的字段名(这里只考虑对一个字段分区,如果多个字段这里应该使用一对多表结构吧)
  8. `partition_column_desc` varchar(50) DEFAULT NULL, --分区字段类型
  9. `check_column` varchar(50) DEFAULT NULL, --根据(table_name中)此字段进行增量导入校验(我这里例子使用的是updatetime
  10. `last_value` varchar(255) DEFAULT NULL, --校验值
  11. `status` int(1) NOT NULL, --是否使用(1表示此job激活)
  12. PRIMARY KEY (`id`)
  13. ) INCREMENTAL=InnoDB AUTO_INCREMENT=81 DEFAULT CHARSET=utf8;

  存储STUDENT表增量导入信息(这里是为了演示)

  1. insert into `job`(`id`,`database_name`,`table_name`,`partition_column_name`,`partition_column_desc`,`check_column`,`last_value`,`status`)values (1,'test_datebase','STUDENT','AGE','string','UPDATETIME','2018-07-30',1)

  python 连接MySql的方法我这里就直接怼代码了,具体详解大家就看菜鸟教程

  Ubuntu需要安装MySQLdb(   sudo apt-get install python-mysqldb   )

  1. import MySQLdb
  2.  
  3. # insert update delete
  4. def conMysqlDB_exec(sqlStr):
  5. db = MySQLdb.connect("192.168.xxx.xxx", "xx", "xx", "xx", charset='utf8' )
  6. cursor = db.cursor()
  7. try:
  8. cursor.execute(sqlStr)
  9. db.commit()
  10. result = True
  11. except:
  12. print("---->MySqlError: execute error")
  13. result = False
  14. db.rollback()
  15. db.close
  16. return result
  17.  
  18. # select
  19. def conMysqlDB_fetchall(sqlStr):
  20. db = MySQLdb.connect("192.168.xxx.xxx", "xx", "xx", "xx", charset='utf8' )
  21. cursor = db.cursor()
  22. results = []
  23. try:
  24. cursor.execute(sqlStr)
  25. results = cursor.fetchall()
  26. except:
  27. print("---->MySqlError: unable to fecth data")
  28. db.close
  29. return results

  查询增量信息,使用spark进行导入

  1. findJobSql = "SELECT * FROM job where status=1"
    result = conMysqlDB_fetchall(findJobSql)
  2. databaseName = val[1]
  3. tableName = val[2]
  4. partitionColumnName = val[3]
  5. partitionColumnDesc = val[4]
  6. checkColumn = val[5]
  7. lastValue = val[6]
  8.  
  9. sqlContext.sql("use database")
  10.  
  11. df = sqlContext.read.format("jdbc") \
  12. .option("url", "jdbc:oracle:thin:@//192.168.xxx.xxx:1521/ORCLPDB") \
  13. .option("driver", "oracle.jdbc.driver.OracleDriver") \
  14. .option("dbtable", "(select * from %s where to_char(%s, 'yyyy-MM-dd')>'%s')" % (tableName, checkColumn, lastValue)) \ #这里是关键,直接查询出新增的数据,这样后面的速度才能提升,否则要对整个表的dataframe进行操作,慢死了,千万不要相信dataframe的filter,where这些东西,4万多条数据要查3分钟!!!
  15. .option("user", "xxx").option("password", "xxx") \
  16. .load()
  17. def  max(a, b):
        if a>b:
          return a
        else:
          return b
  18. try:
  19. #获取到新增字段的最大值!!!(这块也困了我好久)这里使用的是python的reduce函数,调用的max方法
  20. nowLastValue = df.rdd.reduce(max)[checkColumn]
  1. df.registerTempTable("temp")#写入内容
  2. saveSql = "insert into table student select * from temp"
  3. sqlContext.sql(saveSql)
  4. #更新mysql表,使lastValue是表最新值
  5. updataJobSql = "UPDATE job SET last_value='%s' WHERE table_name='%s'" % (nowLastValue, tableName)
  6. if conMysqlDB_exec(updataJobSql):
  7. print("---->SUCCESS: incremental import success")
  8. except ValueError:
  9. print("---->INFO: No new data added!")
  10. except:
  11. print("---->ERROR: other error")

  4、解决导入数据换行符问题

  有时候oracle中的数据中会存在换行符(" \n ")然而hive1.1.0中数据换行默认识别的也是\n,最坑的是还不能对它进行修改(目前我没有查出修改的方法,大家要是有办法欢迎在评论区讨论)那我只能对数据进行处理了,以前使用sqoop的时候也有这个问题,所幸sqoop有解决换行符的语句,,,,巴拉巴拉,,,扯远了

  解决换行符需要dataframe的map方法,然后使用lambda表达式进行replace,总结好就是下面的代码(第3行)

  解释:这是个for循环里面加if else 判断,整个需要用  [ ]  包起来,没错这是个list ,如果不包就报错,lambda x 获取到的是表中一行行的数据,for循环对每一行进行遍历,然后对一行中每个字段进行判断,是否是unicode或者str类型,(一般只有是这两个类型才存在换行符)如果是则进行replace处理,否则不做处理。

  转化好之后这是个rdd类型的数据,需要转化为dataframe类型才能写入hive

  1. #df自带获取schema的方法,不要学我去拼凑出来(
  2. 使用pyspark模仿sqooporacle导数据到hive的主要功能(自动建表,分区导入,增量,解决数据换行符问题)的更多相关文章

      1. HIVE】(1)建表、导入数据、外部表、导出数据
      1. 导入数据 1). 本地 load data local inpath "/root/example/hive/data/dept.txt" into table dept; 2). ...

      1. sqoop oracle导数据到hive中,date型数据时分秒截断问题
      1. oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: sqooporacle数据表倒入到hive中,oracleDate型数据会出现时分秒截断问题,只保留了 ...

      1. oracle问题:新建了一个PDM文件,建表后生成的sql语句中含有clustered
      1. 问题描述 为了在oracle中新增表,在PDM中建表,使用其生成的sql语句,但是建表不能成功,提示 ORA-00906: 缺失左括号 原因是多了clustered 关键字 情景重现 1. 新建一个p ...

      1. Hive管理表分区的创建,数据导入,分区的删除操作
      1. Hive分区和传统数据库的分区的异同: 分区技术是处理大型数据集经常用到的方法.在Oracle中,分区表中的每个分区是一个独立的segment段对象,有多少个分区,就存在多少个相应的数据库对象.而在P ...

      1. activiti 部署在oracle多用户下不能自动建表问题的解决!
      1. activiti配置文件中的SpringProcessEngineConfiguration的配置项中添加<property name= "databaseSchema" ...

      1. Activiti+oracle 启动项目时不能自动建表或更新表的问题分析及解决办法
      1. 现象描述:按照正常配置,第一次启动时不能自动建表 关键配置片段如下: <bean id="processEngineConfiguration" class="or ...

      1. oracle自动创建表分区
      1. 创建一个table,记录哪些表需要创建表分区 create table STAT_TABLE ( tablename VARCHAR2(), pre_partition_name VARCHAR2() ...

      1. Oracle Imp and Exp (导入和导出) 数据 工具使用
      1. Oracle 提供两个工具imp.exe 和exp.exe分别用于导入和导出数据.这两个工具位于Oracle_home/bin目录下. 导入数据exp 1 将数据库ATSTestDB完全导出,用户名s ...

      1. 45.oracle表类型、数据拆分、表分区
      1. 不要做一些没有意义的事情,就比如说你要离职并不打算吃回头草,离职理由中完全没有必要说明“领导的水平太渣,人品太差”此类的原因,而是“个人原因”,当然实在不批准辞职另说. oracle表类型 表的类型分 ...

    1.  
    2. 随机推荐

        1. PyQt5--InputDiaglog
        1. # -*- coding:utf-8 -*- ''' Created on Sep 14, 2018 @author: SaShuangYiBing Comment: ''' import sys f ...

        1. 详解Web请求中的DNS域名解析
        1. 当我们打开浏览器,输入一个URL去请求我们需要的资源,但是URL是需要解析成对应的IP地址才能与远程主机建立连接,如何将URL解析成IP就是DNS的工作范畴,即使作为开发人员,这个过程我们也感觉不到, ...

        1. vue2.0学习笔记之路由(二)路由嵌套+动画
        1. <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

        1. 01-Angularjs开发环境搭建
        1. 一.概述## 时下web前端非常热门,新的框架层出不穷,web前端的三驾马车VueJS.AngularJS.ReactJS发展非常迅猛.其中VueJS是国人开发的项目,百度热点趋势以1000%的速度在 ...

        1. mpvue使用vant Weapp运行npm run build命令打包后失效
        1. 最近在使用mpvue开发微信小程序,在开发过程中使用有赞的小程序ui框架—— vant Weapp ,至于如何使用在我个人博客中有一篇关于如何使用vant Weapp ,需要的同学请点进这里自行查看. ...

        1. linux 的常用命令---------第二阶段
        1. vim编辑器 vim 文件名(首先进入命令模式) :(进行编辑文件内容)  i 键进入插入模式,可以写内容啦. Esc 键,进入命令模式 shift + : 键,进入末行模式  ...

        1. MP实战系列(十)之SpringMVC集成SpringFox+Swagger2
        1. 该示例基于之前的实战系列,如果公司框架是使用JDK7以上及其Spring+MyBatis+SpringMVC/Spring+MyBatis Plus+SpringMVC可直接参考该实例. 不过建议最好 ...

        1. Drool实战系列(二)之eclipse安装drools插件
        1. 这里演示是drools7.5.0,大家可以根据自己需要安装不同的drools版本 drools安装地址: http://download.jboss.org/drools/release/ 一. 二. ...

        1. 打印lua中全局变量的一段代码
        1. function printTableItem(k, v, level) , level do io.write(" ") end io.write(tostring(k), &q ...

        1. WorldWind源码剖析系列:缓冲类Cache
        1. 缓冲类Cache主要用于在最小的限制条件下保存从远程服务器通过网络下载下来的地理空间数据,以便当用户处于离线状态时能够使用这些已经缓冲好的数据.Google Earth也采用类似机制处理用户离线浏览漫 ...