Spark整合HBase,Hive
背景:
场景需求1:使用spark直接读取HBASE表
场景需求2:使用spark直接读取HIVE表
场景需求3:使用spark读取HBASE在Hive的外表
摘要:
1.背景
2.提交脚本
内容
场景需求1:使用spark直接读取HBASE表
编写提交脚本:
export SPARK2_HOME=/var/lib/hadoop-hdfs/spark-2.0.-bin-hadoop2. export HBASE_LIB_HOME=/opt/cloudera/parcels/CDH/lib/hbase
$SPARK2_HOME/bin/spark-shell --jars \
$HBASE_LIB_HOME/hbase-common-0.98.-cdh5.3.2.jar\
,$HBASE_LIB_HOME/hbase-client-0.98.-cdh5.3.2.jar\
,$HBASE_LIB_HOME/hbase-protocol-0.98.-cdh5.3.2.jar,\
,$HBASE_LIB_HOME/hbase-server-0.98.-cdh5.3.2.jar\
,$HBASE_LIB_HOME/lib/htrace-core-2.04.jar
场景需求2:使用spark直接读取HIVE表
编写提交脚本:
export OPT_LIB_HOME=/var/lib/spark/lib
export HBASE_LIB_HOME=/var/lib/hbase/lib /data/dmp/spark/bin/pyspark --master yarn-client \
--jars $OPT_LIB_HOME/mysql-connector-java-5.1.-bin.jar
场景需求3:使用spark读取HBASE在Hive的外表
编写提交脚本:
export SPARK_HOME=/data/dmp/spark
export OPT_LIB_HOME=$SPARK_HOME/lib $SPARK_HOME/bin/pyspark --master yarn-client \
--jars $OPT_LIB_HOME/mysql-connector-java-5.1.-bin.jar,$OPT_LIB_HOME/hive-hbase-handler-1.2..jar,$OPT_LIB_HOME/hbase-client-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/hbase-common-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/hbase-hadoop2-compat-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/hbase-protocol-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/hbase-server-0.98.-cdh5.3.3.jar,$OPT_LIB_HOME/htrace-core-2.04.jar,$OPT_LIB_HOME/guava-14.0..jar
2.代码例子
pom添加HBase依赖:https://github.com/Tongzhenguo/my_scala_code/blob/master/pom.xml
编写Spark Driver Application 类:https://github.com/Tongzhenguo/my_scala_code/blob/master/src/main/scala/utils/HBaseSparkReadUtils.scala
Spark整合HBase,Hive的更多相关文章
- 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
- HADOOP+SPARK+ZOOKEEPER+HBASE+HIVE集群搭建(转)
原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录 引言 目录 一环境选择 1集群机器安装图 2配置说明 3下载地址 二集群的相关 ...
- 大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
- 大数据学习系列之五 ----- Hive整合HBase图文详解
引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
- hive整合hbase
Hive整合HBase后的好处: 通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表. 通过整合,让HBase支持JOIN.GROUP等SQL查询语法. 通过整合,不仅可完成 ...
- spark读取hbase形成RDD,存入hive或者spark_sql分析
object SaprkReadHbase { var total:Int = 0 def main(args: Array[String]) { val spark = SparkSession . ...
- 四 Hive整合HBase
安装环境: hbase版本:hbase-1.4.0-bin.tar.gz hive版本: apache-hive-1.2.1-bin.tar 注意请使用高一点的hbase版本,不然就算hive和h ...
- 创建hive整合hbase的表总结
[Author]: kwu 创建hive整合hbase的表总结.例如以下两种方式: 1.创建hive表的同步创建hbase的表 CREATE TABLE stage.hbase_news_compan ...
- Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作
Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作 1.sparkstreaming实时写入Hbase(saveAsNewAPIHadoopDataset方法 ...
随机推荐
- 基于Thinkphp5.0 小程序登录插件应用
资源连接: wulongtao/think-wxminihelper 具体怎么安装,不介绍了,有不懂再问我吧: 主要重点如下: wepy:index.wpy this.$parent.getUserI ...
- 【BZOJ4419】[SHOI2013]发微博(???)
[BZOJ4419][SHOI2013]发微博(???) 题面 BZOJ 洛谷 题解 一道\(easy\),每个点维护一下要给周围的点加上多上,如果额外连了一个点进来就给他把标记减掉,如果删掉了一条边 ...
- POJ 2672 Tarjan + 缩点 + 拓扑思想
Going from u to v or from v to u? Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 17383 ...
- PHP日志切割shell
#!/bin/bash#此脚本用于自动分割php日志,error.log#每天00:01执行此脚本 将前一天的errors.log重命名为errors-xxxx-xx-xx.log格式,并重新打开日志 ...
- [WC2018]州区划分(FWT)
题目描述 题解 这道题的思路感觉很妙. 题目中有一个很奇怪的不合法条件,貌似和后面做题没有什么关系,所以我们先得搞掉它. 也就是判断一个点集是否合法,也就是判断这个点集是否存在欧拉回路. 如果存在欧拉 ...
- poj 3252 Round Numbers(数位dp 处理前导零)
Description The cows, as you know, have no fingers or thumbs and thus are unable to play Scissors, P ...
- ACM-ICPC 2018 焦作赛区网络预赛 G. Give Candies (打表找规律+快速幂)
题目链接:https://nanti.jisuanke.com/t/31716 题目大意:有n个孩子和n个糖果,现在让n个孩子排成一列,一个一个发糖果,每个孩子随机挑选x个糖果给他,x>=1,直 ...
- 洛谷P4169 天使玩偶 CDQ分治
还是照着CDQ的思路来. 但是有一些改动: 要求4个方向的,但是可爱的CDQ分治只能求在自己一个角落方向上的.怎么办?旋转!做4次就好了. 统计的不是和,而是——max!理由如下: 设当前点是(x,y ...
- c语言笔记: 对 void *lpObj 进行类型转换时,一不留神,后果很严重
问题描述: 一个项目之前测试的时候一点问题没有,今天早上软件在一个特定的条件下出现崩溃情况,但并不是每次都会崩溃情,崩溃概率达到80%. 经过上午3个小时的排查,终于找到原因. 在项目中,我使用了一个 ...
- matlab无法打开.m文件查看
maybe其它程序正在运行 Ctrl+C end the running code