导入HDFS的数据到Hive

1. 通过Hive view

CREATE EXTERNAL TABLE if not exists finance.json_serde_optd_table (

  retCode string,

  retMsg string,

  data array<struct< secid:string,="" tradedate:date,="" optid:string,="" ticker:string,="" secshortname:string,="" exchangecd:string,="" presettleprice:double,="" precloseprice:double,="" openprice:double,="" highestprice:double,="" lowestprice:double,="" closeprice:double,="" settlprice:double,="" turnovervol:double,="" turnovervalue:double,="" openint:int="">>)

ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'

LOCATION 'hdfs://wdp.xxxxx.cn:8020/nifi/finance1/optd/';

create table if not exists finance.tb_optd

as

SELECT b.data.secID,

		b.data.tradeDate,

		b.data.optID,

		b.data.ticker,

		b.data.secShortName,

		b.data.exchangeCD,

		b.data.preSettlePrice,

		b.data.preClosePrice,

		b.data.openPrice,

		b.data.highestPrice,

		b.data.lowestPrice,

		b.data.closePrice,

		b.data.settlPrice,

		b.data.turnoverVol,

		b.data.turnoverValue,

		b.data.openInt

FROM finance.json_serde_optd_table LATERAL VIEW explode(json_serde_optd_table.data) b AS data;

2. 通过Zeppelin

%dep

z.load("/usr/hdp/2.4.2.0-258/hive-hcatalog/share/hcatalog/hive-hcatalog-core.jar");

// 定义导入的hive对象集合

case class HiveConfig(database: String, modelName: String, hdfsPath: String, schema: String, schema_tb: String);

var hiveConfigList = List[HiveConfig]();

// 创建equd数据结构

// 定义json结构

val schema_json_equd_serde ="""  retCode string,

                              retMsg string,

                              data array<struct< secid="" :="" string,="" tradedate="" date,="" ticker="" secshortname="" exchangecd="" precloseprice="" double,="" actprecloseprice:="" openprice="" highestprice="" lowestprice="" closeprice="" turnovervol="" turnovervalue="" dealamount="" int,="" turnoverrate="" accumadjfactor="" negmarketvalue="" marketvalue="" pe="" pe1="" pb="" isopen="" int="">>""";

var schema_equd ="""b.data.secID,

            		b.data.ticker,

            		b.data.secShortName,

            		b.data.exchangeCD,

            		b.data.tradeDate,

            		b.data.preClosePrice,

            		b.data.actPreClosePrice,

            		b.data.openPrice,

            		b.data.highestPrice,

            		b.data.lowestPrice,

            		b.data.closePrice,

            		b.data.turnoverVol,

            		b.data.turnoverValue,

            		b.data.dealAmount,

            		b.data.turnoverRate,

            		b.data.accumAdjFactor,

            		b.data.negMarketValue,

            		b.data.marketValue,

            		b.data.PE,

            		b.data.PE1,

            		b.data.PB,

            		b.data.isOpen""";

hiveConfigList  = hiveConfigList :+ HiveConfig("finance", "equd", "hdfs://wdp.xxxxx.cn:8020/nifi/finance1/", schema_json_equd_serde, schema_equd);

// 创建idxd数据结构

// 定义json结构

val schema_json_idxd_serde ="""  retCode string,

                              retMsg string,

                              data array<struct< indexid:string,="" tradedate:date,="" ticker:string,="" porgfullname:string,="" secshortname:string,="" exchangecd:string,="" precloseindex:double,="" openindex:double,="" lowestindex:double,="" highestindex:double,="" closeindex:double,="" turnovervol:double,="" turnovervalue:double,="" chg:double,="" chgpct:double="">>""";

var schema_idxd ="""b.data.indexID,

            		b.data.tradeDate,

            		b.data.ticker,

            		b.data.porgFullName,

            		b.data.secShortName,

            		b.data.exchangeCD,

            		b.data.preCloseIndex,

            		b.data.openIndex,

            		b.data.lowestIndex,

            		b.data.highestIndex,

            		b.data.closeIndex,

            		b.data.turnoverVol,

            		b.data.turnoverValue,

            		b.data.CHG,

            		b.data.CHGPct""";

hiveConfigList = hiveConfigList :+ HiveConfig("finance", "idxd", "hdfs://wdp.xxxxx.cn:8020/nifi/finance1/", schema_json_idxd_serde, schema_idxd);

// 循环加载数据中

  def loadDataToHive(args:HiveConfig){

    val loadPath = args.hdfsPath + args.modelName;

    val tb_json_serde = "json_serde_" + args.modelName +"_table";

    val tb= "tb_" + args.modelName;

    val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

    if(args.database != "" && args.schema != "") {

        print("正在创建项目..." + args.modelName)

        hiveContext.sql("CREATE DATABASE IF NOT EXISTS " + args.database);

        print("正在构造扩展模型...");

        hiveContext.sql("CREATE TABLE IF NOT EXISTS " + args.database + "." + tb_json_serde + "(" + args.schema + ") row format serde 'org.apache.hive.hcatalog.data.JsonSerDe' LOCATION " + "'" + loadPath + "/'");

        println("CREATE TABLE IF NOT EXISTS " + args.database + "." + tb + " as select " + args.schema_tb + " from " + args.database + "." + tb_json_serde + " LATERAL VIEW explode(" + tb_json_serde + ".data) b AS data");

        hiveContext.sql("CREATE TABLE IF NOT EXISTS " + args.database + "." + tb + " as select " + args.schema_tb + " from " + args.database + "." + tb_json_serde + " LATERAL VIEW explode(" + tb_json_serde + ".data) b AS data");

        println(args.modelName + " 扩展模型加载已完成!");

    }

  }

  hiveConfigList.size;

  hiveConfigList.foreach { x => loadDataToHive(x) };

3. 第二种取法

由于data是json数据里的一个数组，所以上面的转换复杂了一点。下面这种方法是先把json里data数组取出来放到hdfs，然后直接用下面的语句放到hive：

用splitjson 来提取、分隔 data 数组

CREATE EXTERNAL TABLE if not exists finance.awen_optd (

  secid string,

  tradedate date,

  optid string,

  ticker string,

  secshortname string,

  exchangecd string,

  presettleprice double,

  precloseprice double,

  openprice double,

  highestprice double,

  lowestprice double,

  closeprice double,

  settlprice double,

  turnovervol double,

  turnovervalue double,

  openint int)

ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'

LOCATION 'hdfs://wdp.xxxx.cn:8020/nifi/finance2/optd/';

NIFI 中国社区 QQ群：595034369

导入HDFS的数据到Hive的更多相关文章

Hive导入HDFS/本地数据
#创建表人信息表 person(String name,int age) hive> create table person(name STRING,age INT)ROW FORMAT DE ...
第3节 sqoop：4、sqoop的数据导入之导入数据到hdfs和导入数据到hive表
注意: (1)\001 是hive当中默认使用的分隔符,这个玩意儿是一个asc 码值,键盘上面打不出来 (2)linux中一行写不下,可以末尾加上一些空格和 “ \ ”,换行继续写余下的命令: bi ...
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)
sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似. sqoop2-1.99.4环境搭建参见:Sqoop2环境 ...
将数据导入hive，将数据从hive导出
一:将数据导入hive(六种方式) 1.从本地导入 load data local inpath 'file_path' into table tbname; 用于一般的场景. 2.从hdfs上导入数 ...
sqoop导入数据到hive
1.1hive-import参数使用--hive-import就可以将数据导入到hive中,但是下面这个命令执行后会报错,报错信息如下: sqoop import --connect jdbc:my ...
Hive 导入 parquet 格式数据
Hive 导入 parquet 数据步骤如下: 查看 parquet 文件的格式构造建表语句倒入数据一.查看 parquet 内容和结构下载地址社区工具 GitHub 地址命令查看结构: ...
hdfs数据到hive中，以及hdfs数据隐身理解
hdfs数据到hive中: 假设hdfs中已存在好了数据,路径是hdfs:/localhost:9000/user/user_w/hive_g2park/user_center_enterprise_ ...
042 将数据导入hive，将数据从hive导出
一:将数据导入hive(六种方式) 1.从本地导入 load data local inpath 'file_path' into table tbname; 用于一般的场景. 2.从hdfs上导入数 ...

随机推荐

mongoDB 使用手册
1.基本操作db.AddUser(username,password) 添加用户db.auth(usrename,password) 设置数据库连接验证db.cloneDataBase(fromh ...
Office 开发版本号与版本对应关系
Office 开发版本号与版本对应关系: office97 : 8.0 office2000 : 9.0 officeXP(2002) : 10.0 office2003 : 11.0 office2 ...
通过微信企业号发送zabbix报警
采用微信报警时,管理员账户中必须要设置"示警媒体"一项,"收件人"一项可随便填写一下.其它成员则可以不用添加设置. ---------------------- ...
界面设计常用CSS属性
CSS常用属性整理: 1 字体属性 font-family 设置使用的字体 font-style 设置字体的样式,是否斜体 font-variant 设置字体的大小写 font-weight 设置字体 ...
.c文件如何编译为ko的MAKEFILE文件编写
首先需要知道: obj-m = *.o obj-y = *.o 上面两者的区别在于,前者才会生成ko文件,后者只是代码编译进内核,并不生成ko文件. 生成KO文件,分两种情况:单个.c文件和多个.c文 ...
js模拟import方法导入外部文件
function Import() { for( var i=0; i<arguments.length; i++ ) { var file = arguments; if ( file.mat ...
JAVA课程实验报告实验二 Java面向对象程序设计
北京电子科技学院(BESTI) 实验报告课程:Java程序设计班级:1353 姓名:韩玉琪学号:20135317 成绩: 指导教师:娄嘉 ...
AsyncTask下载网络图片的简单应用
1.imageTest package lpc.com.asynctaskdemo; import android.app.Activity; import android.graphics.Bitm ...
Oracle题目
1. 创建一个函数fun_sal,该函数根据部门号获得该部门下所有员工的平均工资Create or replace function fun_sal(deptnos number)return var ...
oracle 驱动安装备忘
ubuntu 从oracle官网下载两个必须的rpm包(这里选择的是version12.1.0.2.0, 64位操作系统) oracle-instantclient12.1-basic-12.1.0. ...

导入HDFS的数据到Hive

1. 通过Hive view

2. 通过Zeppelin

3. 第二种取法

导入HDFS的数据到Hive的更多相关文章

随机推荐

热门专题