Spark 读取HBase数据

Spark1.6.2 读取 HBase 1.2.3

//hbase-common-1.2.3.jar
//hbase-protocol-1.2.3.jar
//hbase-server-1.2.3.jar
//htrace-core-3.1.0-incubating.jar
//metrics-core-2.2.0.jar

  val sparkConf = new SparkConf()

      .setAppName("User")

    // 创建 spark context

    val sc = new SparkContext(sparkConf)

    val sqlContext = new SQLContext(sc)

    import sqlContext.implicits._

    // 创建HBase configuration

    val hBaseConf = HBaseConfiguration.create()

    hBaseConf.set("hbase.zookeeper.quorum", "192.168.1.1,192.168.1.2,192.168.1.3")

    hBaseConf.set("hbase.zookeeper.property.clientPort", ""); // zookeeper端口号

    //设置表名

    hBaseConf.set(TableInputFormat.INPUT_TABLE, "knowledge")

    // 应用newAPIHadoopRDD读取HBase，返回NewHadoopRDD

    val hbaseRDD = sc.newAPIHadoopRDD(hBaseConf,

      classOf[TableInputFormat],

      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

      classOf[org.apache.hadoop.hbase.client.Result])

    // 将数据映射为表  也就是将 RDD转化为 dataframe schema

    // 读取结果集RDD，返回一个MapPartitionsRDD

    val resRDD = hbaseRDD.map(tuple => tuple._2)

    //打印读取数据内容

    val user_knowledge = resRDD.map(r => (Bytes.toString(r.getRow),

      Bytes.toString(r.getValue(Bytes.toBytes("behavior"), Bytes.toBytes("reg_id"))),

      Bytes.toString(r.getValue(Bytes.toBytes("behavior"), Bytes.toBytes("create_user_id"))),

      Bytes.toString(r.getValue(Bytes.toBytes("behavior"), Bytes.toBytes("knowledge_id"))),

      Bytes.toString(r.getValue(Bytes.toBytes("behavior"), Bytes.toBytes("create_time")))) //

      ).toDF("row", "reg_id", "create_user_id", "knowledge_id", "create_time")

    user_knowledge.registerTempTable("user_knowledge")

    // 测试

    val df2 = sqlContext.sql("SELECT * FROM user_knowledge")

    df2.collect.foreach(println)

    sc.stop

Spark 读取HBase数据的更多相关文章

spark读取hbase数据
def main(args: Array[String]): Unit = { val hConf = HBaseConfiguration.create(); hConf.set("hba ...
SparkSQL读取HBase数据
这里的SparkSQL是指整合了Hive的spark-sql cli(关于SparkSQL和Hive的整合,见文章后面的参考阅读). 本质上就是通过Hive访问HBase表,具体就是通过hive-hb ...
关于mapreducer 读取hbase数据存入mysql的实现过程
mapreducer编程模型是一种八股文的代码逻辑,就以用户行为分析求流存率的作为例子 1.map端来说:必须继承hadoop规定好的mapper类:在读取hbase数据时,已经有现成的接口 Tabl ...
使用MapReduce读取HBase数据存储到MySQL
Mapper读取HBase数据 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hba ...
Spark 读取HBase和SolrCloud数据
Spark1.6.2读取SolrCloud 5.5.1 //httpmime-4.4.1.jar // solr-solrj-5.5.1.jar //spark-solr-2.2.2-20161007 ...
Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Inte ...
spark读取hbase形成RDD，存入hive或者spark_sql分析
object SaprkReadHbase { var total:Int = 0 def main(args: Array[String]) { val spark = SparkSession . ...
spark读取hbase(NewHadoopAPI 例子)
package cn.piesat.controller import java.text.{DecimalFormat, SimpleDateFormat}import java.utilimpor ...
spark读取kafka数据 createStream和createDirectStream的区别
1.KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic, ...

随机推荐

使用Fabric在tomcat中部署应用的问题总结
关闭tomcat时 A.为什么调用shutdown时,报错连接拒绝结论——很可能是因为tomcat没启动或没完全启动:而这个时候调用shutdown就会出现此类报错解决方法:time.sleep ...
【leetcode】1047. Remove All Adjacent Duplicates In String
题目如下: Given a string S of lowercase letters, a duplicate removal consists of choosing two adjacent a ...
对Promise的研究2
3.Promise.prototype.then() Promise 实例具有then方法,也就是说,then方法是定义在原型对象Promise.prototype上的.它的作用是为 Promise ...
TFrecords读、写图片文件
参考:https://blog.csdn.net/u014802590/article/details/68495238 参考:https://www.2cto.com/kf/201709/68057 ...
redis下载及安装教程
https://blog.csdn.net/w546097639/article/details/88547486
springboot+thymeleaf 访问静态资源解决（static）
---------------------------------------2.1.3-------------------------------------------------------- ...
两个list 合并后去除掉重复removeAll()的，然后再随机获取最后list中的几个值
public static void test1(){ String s1="1,2,5,3,6,9"; String n1[]=s1.split(","); ...
ConversionService HttpMessageConverter
ConversionService是属于spring core部分所有spring管理的bean等等都使用它进行类型转换,而它又需要注册一些converter 来完成类型转换. 这个可以看我博客 ...
python+selenium+pytest+html报告
背景:python+selenium+pytest+html报告环境:我的是本机的Jenkins配置本机的代码前提:要下载好HTML Publisher plugin插件[系统管理>管理插件 ...
iOS---如何截图，如何将图片保存到相册
最近的项目中运用到了这两个功能,所以记录一下.做了一个小工程将两个方法结合到了一起 1 - (void)viewDidLoad { [super viewDidLoad]; UIButton * bt ...

Spark 读取HBase数据

Spark 读取HBase数据的更多相关文章

随机推荐

热门专题