IDEA中Spark往Hbase中写数据

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.mapred.TableOutputFormat

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.hadoop.hbase.client.{Put, Result}

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.mapred.JobConf

object 写Hbase数据 {

  def main(args: Array[String]): Unit = {

    val sparkConf=new SparkConf().setAppName("往Hbase中写数据").setMaster("local[2]")

    val sc=new SparkContext(sparkConf)

    val tableName="student"

   // sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE,tableName)

    val conf=HBaseConfiguration.create()

    val jobConf=new JobConf(conf)

     jobConf.setOutputFormat(classOf[TableOutputFormat])

    jobConf.set(TableOutputFormat.OUTPUT_TABLE,tableName)

    //构建新纪录

    val dataRDD=sc.makeRDD(Array("5,hadoop,B,29","6,spark,G,56"))

   val rdd=dataRDD.map(_.split(",")).map{x=>{

     val put=new Put(Bytes.toBytes(x())) //行健的值   Put.add方法接收三个参数：列族,列名,数据

     put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes(x())) //info:name列的值

     put.addColumn(Bytes.toBytes("info"),Bytes.toBytes("gender"),Bytes.toBytes(x())) //info:gender列的值

     put.addColumn(Bytes.toBytes("info"),Bytes.toBytes("age"),Bytes.toBytes(x()))//info:age列的值

     (new ImmutableBytesWritable,put)  ////转化成RDD[(ImmutableBytesWritable,Put)]类型才能调用saveAsHadoopDataset

   }}

    rdd.saveAsHadoopDataset(jobConf)

  }

}

结果：

hbase(main)::> scan 'student'

ROW                                    COLUMN+CELL

                                      column=info:age, timestamp=, value=

                                      column=info:gender, timestamp=, value=B

                                      column=info:name, timestamp=, value=hadoop

                                      column=info:age, timestamp=, value=

                                      column=info:gender, timestamp=, value=G

                                      column=info:name, timestamp=, value=spark

                                      column=info:age, timestamp=, value=

                                      column=info:gender, timestamp=, value=B

                                      column=info:name, timestamp=, value=hadoop

                                      column=info:age, timestamp=, value=

                                      column=info:gender, timestamp=, value=G

                                      column=info:name, timestamp=, value=spark

IDEA中Spark往Hbase中写数据的更多相关文章

IDEA中Spark读Hbase中的数据
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.io.ImmutableBytesWr ...
用Spark查询HBase中的表数据
java代码如下: package db.query; import org.apache.commons.logging.Log; import org.apache.commons.logging ...
Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Inte ...
IDEA中 Spark 读Hbase 报错处理：
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] // :: ERROR RecoverableZooKeepe ...
Spark读写Hbase中的数据
def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppN ...
用Spark向HBase中插入数据
java代码如下: package db.insert; import java.util.Iterator; import java.util.StringTokenizer; import org ...
Spark 读取HBase和SolrCloud数据
Spark1.6.2读取SolrCloud 5.5.1 //httpmime-4.4.1.jar // solr-solrj-5.5.1.jar //spark-solr-2.2.2-20161007 ...
mapreduce 只使用Mapper往多个hbase表中写数据
只使用Mapper不使用reduce会大大减少mapreduce程序的运行时间. 有时候程序会往多张hbase表写数据. 所以有如题的需求. 下面给出的代码,不是可以运行的代码,只是展示driver中 ...
使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...

随机推荐

Python之爬虫-京东商品
Python之爬虫-京东商品 #!/usr/bin/env python # coding: utf-8 from selenium import webdriver from selenium.we ...
又一个ajax实例，结合jQuery
又一个ajax实例,配合jQuery html <!DOCTYPE html> <html lang="zh-cn"> <head> < ...
keil mdk uvision使用技巧
语法检测&代码提示中文友好: tab 可以选中一大块代码,一起缩进快速注释先选中你要注释的代码区,然后右键,选择Advanced,Comment Selection 就可以了查找替换 ...
Linux清除arp缓存
arp缓存就是IP地址和MAC地址关系缓存列表.在Windows下 arp -d [$ip] 不指定IP地址时清除所有arp缓存.在Linux下 arp -d $ip 必须指定IP地址才能执行这条命令 ...
MYSQL Sorting result 把队列堆满了，该怎么办？
show processlist;发现有200多个队列,select cardnum from table where xxxid = 31 order by abc_time desc 这样的一个排 ...
mysql复制知识整理
主服务器(master)简称M,从服务器(slave)简称S 一.原理: M监听S的复制请求,S创建一个I/O线程以连接M并让它发送记录在其二进制日志中的语句,M接受到请求,创建一个Binlog ...
[BZOJ1029] [JSOI2007]建筑抢修（贪心 + 优先队列）
传送门把数据存在结构体中,至于怎么贪心? 肯定会有些想法,正确错误先不必说,先来试一试. 1.按照 t2 为第一关键字从小到大排,按照 t1 为第二关键字从小到大排这个显然错,比如后面有个数的 t ...
Flask基础（3）：session、flash、特殊装饰器、蓝图、路由正则匹配、上下文管理 & flask-session
Session: Flask 默认将 session 以加密的形式放到了浏览器的 cookie 中 Flask 的 session 就是一个字典,字典有什么方法 session 就有什么方法 flas ...
QQ5.0侧滑
package com.example; import android.os.Bundle; import android.support.v7.app.ActionBarActivity; impo ...
Delphi与Windows 7下的用户账户控制(UAC)机制
WIN7, Vista提供的UAC机制,它的主要目的是防止对于操作系统本身的恶意修改.对于Delphi程序的影响,UAC主要在于以下几点:1.由于UAC机制,Delphi对于系统的操作可能无声的失败, ...

IDEA中Spark往Hbase中写数据

IDEA中Spark往Hbase中写数据的更多相关文章

随机推荐

热门专题