hive整合hbase
Hive整合HBase后的好处:
通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表。
通过整合,让HBase支持JOIN、GROUP等SQL查询语法。
通过整合,不仅可完成HBase的数据实时查询,也可以使用Hive查询HBase中的数据完成复杂的数据分析。
配置
因为Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-.jar工具类来实现。所以只需要将hive的 hive-hbase-handler-.jar 复制到hbase/lib中就可以了。
[root@host lib]# cp hive-hbase-handler-2.1.1.jar $HBASE_HOME/lib
测试
通过hive创建hbase表
hive> CREATE TABLE t_name (id INT, NAME string)
> stored BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
> WITH serdeproperties (
> "hbase.columns.mapping" = ":key,st1:name")
> tblproperties ("hbase.table.name" = "t_name","hbase.mapred.output.outputtable" = "t_name");
OK
Time taken: 1.625 seconds
在hive中查看:
hive> show tables;
OK
cust_copy
t_name
Time taken: 0.127 seconds, Fetched: 2 row(s)
hive> show create table t_name;
OK
CREATE TABLE `t_name`(
`id` int COMMENT '',
`name` string COMMENT '')
ROW FORMAT SERDE
'org.apache.hadoop.hive.hbase.HBaseSerDe'
STORED BY
'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
'hbase.columns.mapping'=':key,st1:name',
'serialization.format'='1')
TBLPROPERTIES (
'COLUMN_STATS_ACCURATE'='{\"BASIC_STATS\":\"true\"}',
'hbase.mapred.output.outputtable'='t_name',
'hbase.table.name'='t_name',
'numFiles'='0',
'numRows'='0',
'rawDataSize'='0',
'totalSize'='0',
'transient_lastDdlTime'='1526546542')
Time taken: 0.308 seconds, Fetched: 19 row(s)
在HBASE中查看
hbase(main):004:0> list 't_name'
TABLE
t_name
1 row(s)
Took 0.0092 seconds
=> ["t_name"]
在hbase插入数据并查看数据:
hbase(main):006:0> put 't_name','1','st1:name','xiaoma'
Took 0.3709 seconds
hbase(main):007:0> put 't_name','2','st1:name','xiaozhang'
Took 0.0038 seconds
hbase(main):008:0> put 't_name','3','st1:name','tianyongtao'
Took 0.0051 seconds
hbase(main):009:0> scan 't_name'
ROW COLUMN+CELL
1 column=st1:name, timestamp=1526547097913, value=xiaoma
2 column=st1:name, timestamp=1526547115702, value=xiaozhang
3 column=st1:name, timestamp=1526547130241, value=tianyongtao
3 row(s)
Took 0.0327 seconds
通过hive查询:
hive> select * from t_name;
OK
t_name.id t_name.name
1 xiaoma
2 xiaozhang
3 tianyongtao
Time taken: 0.414 seconds, Fetched: 3 row(s)
hive> select * from t_name where id=1;
OK
t_name.id t_name.name
1 xiaoma
Time taken: 1.246 seconds, Fetched: 1 row(s)
hive> select * from t_name where id>1;
OK
t_name.id t_name.name
2 xiaozhang
3 tianyongtao
Time taken: 0.383 seconds, Fetched: 2 row(s)
删除表测试:
hive> drop table t_name;
OK
Time taken: 1.851 seconds
经查hbase中的t_name表被同步删除了
多列族
hive> CREATE TABLE t_role (id INT, NAME string,sex int,platid int)
> stored BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
> WITH serdeproperties (
> "hbase.columns.mapping" = ":key,info:NAME,info:sex,plat:platid")
> tblproperties ("hbase.table.name" = "t_role","hbase.mapred.output.outputtable" = "t_role");
OK
Time taken: 3.179 seconds
hbase(main):039:0> scan 't_role'
ROW COLUMN+CELL
1 column=info:name, timestamp=1526549089030, value=feige
1 column=info:sex, timestamp=1526549206235, value=0
1 column=plat:platid, timestamp=1526549241774, value=785
1 row(s)
Took 0.0287 seconds
hive> select * from t_role;
OK
t_role.id t_role.name t_role.sex t_role.platid
1 NULL 0 785
Time taken: 0.417 seconds, Fetched: 1 row(s)
发现name字段为空
hbase(main):040:0> put 't_role','1','info:NAME','feige'
Took 0.0033 seconds
hive> select * from t_role;
OK
t_role.id t_role.name t_role.sex t_role.platid
1 feige 0 785
Time taken: 0.422 seconds, Fetched: 1 row(s)
发现name字段被填充(因此要注意字段的大小写)
-----------------------
spark访问hive-hbase表,需要制定jars包如下:
spark-shell --master local-cluster[3,2,1024] --num-executors 3 --executor-memory 1g --jars /root/hive/apache-hive-2.1.1/lib/hive-hbase-handler-2.1.1.jar
hive整合hbase的更多相关文章
- 大数据学习系列之五 ----- Hive整合HBase图文详解
引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
- 四 Hive整合HBase
安装环境: hbase版本:hbase-1.4.0-bin.tar.gz hive版本: apache-hive-1.2.1-bin.tar 注意请使用高一点的hbase版本,不然就算hive和h ...
- 创建hive整合hbase的表总结
[Author]: kwu 创建hive整合hbase的表总结.例如以下两种方式: 1.创建hive表的同步创建hbase的表 CREATE TABLE stage.hbase_news_compan ...
- Hive 整合Hbase
摘要 Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询.同时也可以将hive表中的数据映射到Hbase中. 应用 ...
- 大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
- Hive篇---Hive与Hbase整合
一.前述 Hive会经常和Hbase结合使用,把Hbase作为Hive的存储路径,所以Hive整合Hbase尤其重要. 二.具体步骤 hive和hbase同步https://cwiki.apache ...
- Hive综合HBase——经Hive阅读/书写 HBase桌子
社论: 本文将Hive与HBase整合在一起,使Hive能够读取HBase中的数据,让Hadoop生态系统中最为经常使用的两大框架互相结合.相得益彰. watermark/2/text/aHR0cDo ...
- 二十、Hadoop学记笔记————Hive On Hbase
Hive架构图: 一般用户接口采用命令行操作, hive与hbase整合之后架构图: 使用场景 场景一:通过insert语句,将文件或者table中的内容加入到hive中,由于hive和hbase已经 ...
- hive_学习_02_hive整合hbase(失败)
一.前言 本文承接上一篇:hive_学习_01_hive环境搭建(单机) ,主要是记录 hive 整合hbase的流程 二.环境准备 1.环境准备 操作系统 : linux CentOS 6.8 jd ...
随机推荐
- Thrift 个人实战--Thrift 网络服务模型(转)
前言: Thrift作为Facebook开源的RPC框架, 通过IDL中间语言, 并借助代码生成引擎生成各种主流语言的rpc框架服务端/客户端代码. 不过Thrift的实现, 简单使用离实际生产环境还 ...
- ballerina 学习 三十 扩展开发(一)
ballerina 主要是分为两大类 基于ballerina 语言开发的,一般是客户端的connector 使用java语言开发的(类似的基于jvm的都可以),一般是注解以及进行构件生成 baller ...
- RTSP HTTP RTP RTCP
RTSP简介 RTSP(Real Time Streaming Protocol)是由Real Network和Netscape共同提出的如何有效地在IP网络上传输流媒体数据的应用层协议.RTSP对流 ...
- 使用Apriori进行关联分析(一)
大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务.但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入.其中最经典的 ...
- 洛谷 3706 [SDOI2017]硬币游戏——思路
题目:https://www.luogu.org/problemnew/show/P3706 题解:https://blog.csdn.net/gjghfd/article/details/80355 ...
- MySQL架构设计谈:从开发规范、选型、拆分到减压(转)
作者介绍 李辉,原新浪爱彩票运维负责人,常用网名:门牙没了.曾主导新浪爱彩票的MySQL运维工作.培训合伙人.资深讲师,中国科学院大学在读研究生(大数据方向),擅长大型项目的关系型数据库运维和管理,现 ...
- Robots.txt 编写
搜索引擎Robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则.设置搜索引擎蜘蛛Spider抓取内容规则.下面Seoer惜缘举例robots写法规则与 ...
- AWS ECU SSH无法连接问题处理
AWS ECU SSH无法连接问题处理,因同事误操作导致/var/empty/sshd目录权限为771,需要修改为711,因AWS只有一台实例,所以需要通过建立临时实例来挂载“卷”来修改/var/ ...
- HA 高可用mysql集群
注意问题: 1.保持mysql用户和组的ID号是一致的: 2.filesystem 共享存储必须要有写入权限: 3.删除资源必须先删除约束,在删除资源: 1.安装数据库,这里使用maridb数据库: ...
- 纯文本文件 student.txt为学生信息, 里面的内容(包括花括号)如下所示
import json from collections import OrderedDict import xlwt with open('student.txt',encoding='utf-8' ...