Spark读写HBase

Spark读写HBase示例

1、HBase shell查看表结构

hbase(main)::> desc 'SDAS_Person'

Table SDAS_Person is ENABLED

SDAS_Person

COLUMN FAMILIES DESCRIPTION

{NAME => 'cf0', BLOOMFILTER => 'ROW', VERSIONS => '', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE',

 DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '', BLOCKCACHE =>

 'true', BLOCKSIZE => '', REPLICATION_SCOPE => ''}

{NAME => 'cf1', BLOOMFILTER => 'ROW', VERSIONS => '', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE',

 DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '', BLOCKCACHE =>

 'true', BLOCKSIZE => '', REPLICATION_SCOPE => ''}

{NAME => 'cf2', BLOOMFILTER => 'ROW', VERSIONS => '', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE',

 DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '', BLOCKCACHE =>

 'true', BLOCKSIZE => '', REPLICATION_SCOPE => ''}

 row(s) in 0.0810 seconds

hbase(main)::> desc 'RESULT'

Table RESULT is ENABLED

RESULT

COLUMN FAMILIES DESCRIPTION

{NAME => 'cf0', BLOOMFILTER => 'ROW', VERSIONS => '', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE',

DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '', BLOCKCACHE =>

'true', BLOCKSIZE => '', REPLICATION_SCOPE => ''}

 row(s) in 0.0250 seconds

2、HBase shell插入数据

hbase(main)::> scan 'SDAS_Person'

ROW                         COLUMN+CELL

 SDAS_1#                   column=cf0:Age, timestamp=, value=

 SDAS_1#                   column=cf0:CompanyID, timestamp=, value=

 SDAS_1#                   column=cf0:InDate, timestamp=, value=-- ::08.49

 SDAS_1#                   column=cf0:Money, timestamp=, value=5.20

 SDAS_1#                   column=cf0:Name, timestamp=, value=zhangsan

 SDAS_1#                   column=cf0:PersonID, timestamp=, value=

3、pom.xml：

    <dependency>

      <groupId>org.scala-lang</groupId>

      <artifactId>scala-library</artifactId>

      <version>${scala.version}</version>

    </dependency>

    <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-core_${scala.binary.version}</artifactId>

      <version>${spark.version}</version>

      <scope>provided</scope>

    </dependency>

4、源码：

package com.zxth.sdas.spark.apps

import org.apache.spark._

import org.apache.spark.rdd.NewHadoopRDD

import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor}

import org.apache.hadoop.hbase.client.HBaseAdmin

import org.apache.hadoop.hbase.mapreduce.TableInputFormat

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.hbase.client.Put

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.mapreduce.Job

import org.apache.hadoop.hbase.client.Result

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat

object HBaseOp {

  var total:Int = 0

  def main(args: Array[String]) {

    val sparkConf = new SparkConf().setAppName("HBaseOp").setMaster("local")

    val sc = new SparkContext(sparkConf)

    val conf = HBaseConfiguration.create()

    conf.set("hbase.zookeeper.quorum","master,slave1,slave2")

    conf.set("hbase.zookeeper.property.clientPort", "2181")

    conf.set(TableInputFormat.INPUT_TABLE, "SDAS_Person")

    //读取数据并转化成rdd

    val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],

      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

      classOf[org.apache.hadoop.hbase.client.Result])  

    val count = hBaseRDD.count()

    println("\n\n\n:" + count)

    hBaseRDD.foreach{case (_,result) =>{

      //获取行键

      val key = Bytes.toString(result.getRow)

      //通过列族和列名获取列

      var obj = result.getValue("cf0".getBytes,"Name".getBytes)

      val name = if(obj==null) "" else Bytes.toString(obj)

      obj = result.getValue("cf0".getBytes,"Age".getBytes);

      val age:Int = if(obj == null) 0 else Bytes.toString(obj).toInt

      total = total + age

      println("Row key:"+key+" Name:"+name+" Age:"+age+" total:"+total)

    }}

    var average:Double = total.toDouble/count.toDouble

    println("" + total + "/" + count + " average age:" + average.toString())

    //write hbase

    conf.set(TableOutputFormat.OUTPUT_TABLE, "RESULT")

    val job = new Job(conf)

    job.setOutputKeyClass(classOf[ImmutableBytesWritable])

    job.setOutputValueClass(classOf[Result])

    job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])

    var arrResult:Array[String] = new Array[String](1)

    arrResult(0) = "1," + total + "," + average;

    //arrResult(0) = "1,100,11"

    val resultRDD = sc.makeRDD(arrResult)

    val saveRDD = resultRDD.map(_.split(',')).map{arr=>{

      val put = new Put(Bytes.toBytes(arr(0)))

      put.add(Bytes.toBytes("cf0"),Bytes.toBytes("total"),Bytes.toBytes(arr(1)))

      put.add(Bytes.toBytes("cf0"),Bytes.toBytes("average"),Bytes.toBytes(arr(2)))

      (new ImmutableBytesWritable, put)

    }}

    println("getConfiguration")

    var c = job.getConfiguration()

    println("save")

    saveRDD.saveAsNewAPIHadoopDataset(c)  

    sc.stop()

  }

}

5、maven打包

mvn clean scala:compile compile package

6、提交运算

bin/spark-submit \

--jars $(echo /opt/hbase-1.2./lib/*.jar | tr ' ' ',') \

--class com.zxth.sdas.spark.apps.HBaseOp \

--master local \

sdas-spark-1.0.0.jar

Spark读写HBase的更多相关文章

Spark读写Hbase的二种方式对比
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputForm ...
spark读写hbase性能对比
一.spark写入hbase hbase client以put方式封装数据,并支持逐条或批量插入.spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDatas ...
Spark读写HBase时出现的问题--RpcRetryingCaller: Call exception
问题描述 Exception in thread "main" org.apache.hadoop.hbase.client.RetriesExhaustedException: ...
Spark读写Hbase中的数据
def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppN ...
Spark-读写HBase，SparkStreaming操作，Spark的HBase相关操作
Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作 1.sparkstreaming实时写入Hbase(saveAsNewAPIHadoopDataset方法 ...
Spark实战之读写HBase
1 配置 1.1 开发环境: HBase:hbase-1.0.0-cdh5.4.5.tar.gz Hadoop:hadoop-2.6.0-cdh5.4.5.tar.gz ZooKeeper:zooke ...
使用 Spark SQL 高效地读写 HBase
Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件.很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中 ...
Spark读Hbase优化 --手动划分region提高并行数
一. Hbase的region 我们先简单介绍下Hbase的架构和Hbase的region: 从物理集群的角度看,Hbase集群中,由一个Hmaster管理多个HRegionServer,其中每个HR ...
开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...

随机推荐

struts2 在 Action 或 Interceptor 中获取 web.xml 中配置的 <context-param> 参数（这是我的第一篇博文，哈哈。）
最近为了改一个问题,想加一个控制开关,就在web.xml 中配置了一个 <context-param> 参数,并在 Action 或 Interceptor 中获取参数值. 1.在 web ...
Dataguard配置总结
Dataguard配置总结本例情形在主库存在运行的情况下,增加配置dataguard备库,实现双机热备,高可用性. 主库要求,归档模式,强制归档. 主库idty 备库idty_st 1.密码文件 ...
maven中target不能访问
原因是maven clean的时候已经把target文件夹删除但是文件夹还存在页面中所以我们看得到但是不能打开.正常操作是获得管理员权限删除后再重新clean,但是我电脑有360,直接360 ...
Spring的事务
事务:事务指的是逻辑上的一组操作,这组操作要么都成功,要么都失败. Transaction事务的四大特性ACID: 1.Atomicity原子性事务的操作要么都成功,要么都不做,只要有一个失败,就会 ...
Docker初始
如今Docker的使用已经非常普遍,特别在一线互联网公司.使用Docker技术可以帮助企业快速水平扩展服务,从而到达弹性部署业务的能力.在云服务概念兴起之后,Docker的使用场景和范围进一步发展,如 ...
MTK-TP(触屏)解读一
MTK中的TP代码结构并不复杂,相比于其他的系统更为的简单些.它使用的是input子系统,通过该系统来上报触摸按键. 首先我们来看看TP的文件夹下的各代码文件的功能. 文件名具体功能关系文件 tp ...
hiho一下第206周
题目1 : Guess Number with Lower or Higher Hints 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 There is a game ...
【js】js声明与数据类型
之前整理知识点感觉有点没有针对性,每期知识点之间都没有关联,不成体系,其实对学习与运用知识并无益,随着知识的积累,不使用就会忘记.所以从本次开始,将对知识点进行体系化.先列出本期知识体系图,再进行逐步 ...
2019/4/17 wen 注解、垃圾回收、多线程
shell之for和if实现批量替换多目录下的文件
问题背景: 生产环境的项目图片文件夹众多,每个项目都会有一个图片文件夹,现在要批量替换每个文件夹下的一张模板图片如图,我们要替换每一个文件夹下的01.jpg shell 脚本 #/bin/bash ...

Spark读写HBase

Spark读写HBase的更多相关文章

随机推荐

热门专题