将数据导入hive，再将hive表导入hbase

将数据到入hive的无分区表，再将无分区表导入hive的有分区表：

--备份

create table tds_package_secinfobk as select * from tds_package_secinfo;

--导入分区表

tds_package_secinfo

CREATE TABLE  tds_package_secinfo

(package_name string,program_name string,keyhash string)

PARTITIONED BY(risk_label string)

ROW FORMAT delimited fields terminated by '\t'

LOCATION '/user/hive/warehouse/tds_package_secinfo'

LOAD DATA INPATH '/user/hive/warehouse/邪教app.txt' OVERWRITE INTO TABLE tds_package_secinfo PARTITION(risk_label='邪教app');

--无分区表导有分区表

set hive.exec.max.dynamic.partitions= ;

set hive.exec.max.dynamic.partitions.pernode= ;

set hive.exec.dynamic.partition.mode=nonstrict;

set hive.support.concurrency=false;

set mapreduce.job.reduce.slowstart.completedmaps=;

insert into table tds_package_secinfo partition(risk_label)

select  package_name ,'' ,'' ,risk_label from  hue_package_secinfo;

hbase_package_secinfo

查询该hive表的包名和标签列：

select package_name,risk_label from tds_package_secinfo

hbase表需要先建表，才能插入数据

建表：

CREATE TABLE hbase_package_secinfo

(package_name string,risk_label string)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES

("hbase.columns.mapping" = ":key,info:risk_lable") TBLPROPERTIES ("hbase.table.name"="hbase_package_secinfo");

插入数据：

insert into hbase_package_secinfo

select package_name,risk_label from tds_package_secinfo

-------------------------------------------------建表完成-----------------------------------------------------------

查询语句：

select count(*),dt from MDS_ENGINE_VIR_URL group by dt order by dt desc; 

select count(*),dt from MDS_ENGINE_WARESOURCE_INFO_NEW group by dt order by dt desc;  

select count(*),dt from MDS_VICTIM_INFO group by dt order by dt desc;

--------------------------------------------

异常：

Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row {"package_name":"","program_name":"","keyhash":"","risk_label":"__HIVE_DEFAULT_PARTITION__"}

    at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:)

    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:)

    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:)

    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:)

    at org.apache.hadoop.mapred.YarnChild$.run(YarnChild.java:)

    at java.security.AccessController.doPrivileged(Native Method)

    at javax.security.auth.Subject.doAs(Subject.java:)

    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:)

    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:)

Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row {"package_name":"","program_name":"","keyhash":"","risk_label":"__HIVE_DEFAULT_PARTITION__"}

    at org.apache.hadoop.hive.ql.exec.MapOperator.process(MapOperator.java:)

    at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:)

    ...  more

Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.hive.serde2.SerDeException: java.lang.IllegalArgumentException: Row length is

    at org.apache.hadoop.hive.ql.exec.FileSinkOperator.processOp(FileSinkOperator.java:)

    at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:)

    at org.apache.hadoop.hive.ql.exec.SelectOperator.processOp(SelectOperator.java:)

    at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:)

    at org.apache.hadoop.hive.ql.exec.TableScanOperator.processOp(TableScanOperator.java:)

    at org.apache.hadoop.hive.ql.exec.MapOperator$MapOpCtx.forward(MapOperator.java:)

    at org.apache.hadoop.hive.ql.exec.MapOperator.process(MapOperator.java:)

    ...  more

Caused by: org.apache.hadoop.hive.serde2.SerDeException: java.lang.IllegalArgumentException: Row length is

    at org.apache.hadoop.hive.hbase.HBaseSerDe.serialize(HBaseSerDe.java:)

    at org.apache.hadoop.hive.ql.exec.FileSinkOperator.processOp(FileSinkOperator.java:)

    ...  more

Caused by: java.lang.IllegalArgumentException: Row length is

    at org.apache.hadoop.hbase.client.Mutation.checkRow(Mutation.java:)

    at org.apache.hadoop.hbase.client.Put.<init>(Put.java:)

    at org.apache.hadoop.hbase.client.Put.<init>(Put.java:)

    at org.apache.hadoop.hbase.client.Put.<init>(Put.java:)

    at org.apache.hadoop.hive.hbase.HBaseRowSerializer.serialize(HBaseRowSerializer.java:)

    at org.apache.hadoop.hive.hbase.HBaseSerDe.serialize(HBaseSerDe.java:)

    ...  more

原因：表中的内容为空，所以插不进去

解决方法：加上条件：

where risk_label!='__HIVE_DEFAULT_PARTITION__'

所以插入语句应该为：

insert into hbase_package_secinfo

select package_name,risk_label from tds_package_secinfo where risk_label!='__HIVE_DEFAULT_PARTITION__';

最后删除risk_label":"__HIVE_DEFAULT_PARTITION__的那个分区

ALTER TABLE tds_package_secinfo DROP IF EXISTS PARTITION(risk_label='__HIVE_DEFAULT_PARTITION__' );

将数据导入hive，再将hive表导入hbase的更多相关文章

【Hive二】 Hive基本使用
Hive基本使用创建数据库创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db create database 库名; 避免要创建的数据库已经存在错 ...
己亥清爽恢复系列之数据文件4篇：DROP表后如何恢复（非闪回技术）
己亥清爽系列说明:清爽系列是作为恢复系列的基础篇,基于FS(File System)文件系统的手工还原恢复,也叫基于用户管理的还原恢复,来自于博客园AskScuti. 实验说明:你不小心Drop掉了一 ...
Sqoop- sqoop将mysql数据表导入到hive报错
sqoop将mysql数据表导入到hive报错 [root@ip---- lib]# sqoop import --connect jdbc:mysql://54.223.175.12:3308/gx ...
Hive如何加载和导入HBase的数据
当我们用HBase 存储实时数据的时候, 如果要做一些数据分析方面的操作, 就比较困难了, 要写MapReduce Job. Hive 主要是用来做数据分析的数据仓库,支持标准SQL 查询, 做数据分 ...
hive的数据定义之创建数据库和表
1.对数据库的操作 create database hive_db //创建数据库hive_db create table hive_db.test(字段内容及其格式省略) //在数据库hive_db ...
一起学Hive——详解四种导入数据的方式
在使用Hive的过程中,导入数据是必不可少的步骤,不同的数据导入方式效率也不一样,本文总结Hive四种不同的数据导入方式: 从本地文件系统导入数据从HDFS中导入数据从其他的Hive表中导入数据 ...
大数据【五】Hive（部署；表操作；分区）
一概述就像我们所了解的sql一样,Hive也是一种数据仓库,不同的是hive是在hadoop大数据生态圈中所用.这篇博客我主要介绍Hive的简单表运用. Hive是Hadoop 大数据生态圈中的数 ...
sqoop数据导入到Hdfs 或者hive
用java代码调用shell脚本执行sqoop将hive表中数据导出到mysql http://www.cnblogs.com/xuyou551/p/7999773.html 用sqoop将mysql ...
【原创】大叔经验分享（25）hive通过外部表读写hbase数据
在hive中创建外部表: CREATE EXTERNAL TABLE hive_hbase_table(key string, name string,desc string) STORED BY ' ...

随机推荐

Android——搜索传统蓝牙设备
一,主布局: <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:andro ...
stm8编程tips（stvd）
编译完成时显示程序占用的flash和ram大小将附件压缩包中的mapinfo.exe解压到stvd的安装路径\stvd中在工程上点右键选settings 右侧的选项卡选择Linker,将categ ...
ip4addr_ntoa和不可重入函数
在网络中,有一个转换IP地址到ASIIC字符串的函数,该函数的返回值所指向的ASIIC字符串驻留在静态内存中,所以该函数不可重入. 通俗的讲,在多任务系统中,一个任务执行在调用运行这个函数的时候,其他 ...
MYSQL--事务处理（转）
事务处理在各种管理系统中都有着广泛的应用,比如人员管理系统,很多同步数据库操作大都需要用到事务处理.比如说,在人员管理系统中,你删除一个人员,你即需要删除人员的基本资料,也要删除和该人员相关的信息,如 ...
Android当代码方法超过65536个时，在2.3机器上会不能安装，出现INSTALL_FAILED_DEXOPT错误
今天打包时,发现2.3机器,产生的APK在某些机器上不能安装(Installation error: INSTALL_FAILED_DEXOPT),针对这个问题的一个可能解释是:最新的ADT和SDK ...
vi/vim 命令使用详解
1.Linux下创建文件 vi test.txt 或者 vim test.txt 或者 touch test.txt 2.vi/vim 使用基本上 vi/vim 共分为三种模式,分别是命令模式(Co ...
javascript中容易出bug的语句
一.forEach方法 forEach方法中没法用continue来实现跳过单句到下一次循环,如果要跳到下一次循环,要用return关键字,如果想直接跳出forEach循环,具我所知的,要throw一 ...
linux学习总结---web前端③
css3: border-radius opacity: transform: 旋转 rotate 平移translate 缩放scale 扭曲skew transition:转变强调:开始和结束 ...
EM算法浅析(一)-问题引出
EM算法浅析,我准备写一个系列的文章: EM算法浅析(一)-问题引出 EM算法浅析(二)-算法初探一.基本认识 EM(Expectation Maximization Algorithm)算法即期望 ...
python 调用RESTFul接口
本周需要将爬虫爬下来的数据入库,因为之前已经写好PHP的接口的,可以直接通过python调用PHP接口来实现,所以把方法总结一下. //python编码问题,因为好久用,所以很容易出现 # -*- c ...

将数据导入hive，再将hive表导入hbase

将数据导入hive，再将hive表导入hbase的更多相关文章

随机推荐

热门专题