Spark 写 Hbase

package com.grady

import org.apache.hadoop.hbase.HBaseConfiguration

import org.apache.hadoop.hbase.client.{Put, Result}

import org.apache.hadoop.hbase.io.ImmutableBytesWritable

import org.apache.hadoop.hbase.mapred.TableOutputFormat

import org.apache.hadoop.hbase.util.Bytes

import org.apache.hadoop.mapred.JobConf

import org.apache.spark.{SparkConf, SparkContext}

object SparkWriteHbase {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setAppName("SparkWriteHbase")

    val sc = new SparkContext(sparkConf)

    val tablename = "jiang:student"

    val hbaseConf = HBaseConfiguration.create()

    hbaseConf.set("hbase.zookeeper.quorum","10.82.232.64")

    hbaseConf.set("hbase.zookeeper.property.clientPort", "2181")

    hbaseConf.set("zookeeper.znode.parent", "/hbase")

    hbaseConf.set(TableOutputFormat.OUTPUT_TABLE, tablename)

    val jobConf = new JobConf(hbaseConf)

    jobConf.setOutputFormat(classOf[TableOutputFormat])

    val inDataRDD = sc.makeRDD(Array("1,jack,15", "2,Lily,16", "3,mike,16"))

    val rdd = inDataRDD.map(_.split(',')).map { arr => {

      val put = new Put(Bytes.toBytes(arr(0)))

      put.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("name"), Bytes.toBytes(arr(1)))

      put.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("age"), Bytes.toBytes(arr(2)))

      (new ImmutableBytesWritable, put)

    }}

    rdd.saveAsHadoopDataset(jobConf)

    sc.stop()

  }

}

pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

    <parent>

        <artifactId>spark-practise</artifactId>

        <groupId>org.example</groupId>

        <version>1.0-SNAPSHOT</version>

    </parent>

    <modelVersion>4.0.0</modelVersion>

    <artifactId>usehive1</artifactId>

    <repositories>

        <repository>

            <id>scala-tools.org</id>

            <name>Scala-Tools Maven2 Repository</name>

            <url>http://scala-tools.org/repo-releases</url>

        </repository>

    </repositories>

    <pluginRepositories>

        <pluginRepository>

            <id>scala-tools.org</id>

            <name>Scala-Tools Maven2 Repository</name>

            <url>http://scala-tools.org/repo-releases</url>

        </pluginRepository>

    </pluginRepositories>

    <dependencies>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>${scala.version}</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>4.4</version>

            <scope>test</scope>

        </dependency>

        <dependency>

            <groupId>org.specs</groupId>

            <artifactId>specs</artifactId>

            <version>1.2.5</version>

            <scope>test</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_${scala.binary.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_${scala.binary.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-client</artifactId>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.hbase.connectors.spark/hbase-spark -->

        <dependency>

            <groupId>org.apache.hbase.connectors.spark</groupId>

            <artifactId>hbase-spark</artifactId>

        </dependency>

    </dependencies>

    <build>

        <sourceDirectory>src/main/scala</sourceDirectory>

        <testSourceDirectory>src/test/scala</testSourceDirectory>

        <plugins>

            <plugin>

                <groupId>org.scala-tools</groupId>

                <artifactId>maven-scala-plugin</artifactId>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                    </execution>

                </executions>

                <configuration>

                    <scalaVersion>${scala.version}</scalaVersion>

                    <args>

                        <arg>-target:jvm-1.8</arg>

                    </args>

                </configuration>

            </plugin>

        </plugins>

    </build>

</project>

执行：spark-submit --master local[2] --num-executors 10 --class com.grady.SparkWriteHbase /app/data/appdeploy/usehive1-1.0-SNAPSHOT.jar

日志：

hbase(main):008:0> scan 'jiang:student'

ROW                          COLUMN+CELL

 1                           column=cf:age, timestamp=2022-02-08T16:27:01.290, value=15

 1                           column=cf:name, timestamp=2022-02-08T16:27:01.290, value=jack

 2                           column=cf:age, timestamp=2022-02-08T16:27:01.290, value=16

 2                           column=cf:name, timestamp=2022-02-08T16:27:01.290, value=Lily

 3                           column=cf:age, timestamp=2022-02-08T16:27:01.290, value=16

 3                           column=cf:name, timestamp=2022-02-08T16:27:01.290, value=mike

Spark 写 Hbase的更多相关文章

spark 写 hbase 数据库，遇到Will not attempt to authenticate using SASL (unknown error)
今日在windows上用spark写hbase的函数 saveAsHadoopDataset 写hbase数据库的时候,遇到Will not attempt to authenticate using ...
spark 写hbase
部分情况下: saveAsNewAPIHadoopDataset不能用大坑, org.apache.hadoop.mapred 和 org.apache.hadoop.mapreduce两个包的混乱 ...
Spark读HBase写MySQL
1 Spark读HBase Spark读HBase黑名单数据,过滤出当日新增userid,并与mysql黑名单表内userid去重后,写入mysql. def main(args: Array[Str ...
IDEA中Spark往Hbase中写数据
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.io.ImmutableBytesWr ...
Spark-读写HBase，SparkStreaming操作，Spark的HBase相关操作
Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作 1.sparkstreaming实时写入Hbase(saveAsNewAPIHadoopDataset方法 ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...
[Spark] 04 - HBase
BHase基本知识基本概念自我介绍 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”. ...
MapReduce和Spark写入Hbase多表总结
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduc ...

随机推荐

centos 7搭建svn+apache及权限控制
SVN服务器运行模式: 模式1:svn服务器单独运行监听: 3690端口访问: svn://IP 模式2: svn 服务器+ apache : 80 端口访问: http://IP 1. #安装 ...
Contest
Contest 题目链接题目描述 \(n\) 支队伍一共参加了三场比赛. 一支队伍 \(x\) 认为自己比另一支队伍 \(y\) 强当且仅当 \(x\) 在至少一场比赛中比 \(y\) 的排名高. ...
漫谈客户端存储技术之Cookie篇
Cookie 说到Cookie,不管作为前端开发人员还是后端开发人员并不陌生,作为一种最古老.最稳定的客户端存储形式,即便是在当下各种新的客户端存储技术层出不穷的时代,它仍旧有其一席之位.Cookie ...
while循环--和do-while循环
对于循环语句来说他会有一个回上去的箭头,这个回上去的箭头就形成了一个重复做的事情,那种重复做的事情我们就叫做循环 while循环 ~如果我们把while翻译作"当",那么一个whi ...
万字干货|Java基础面试题（2022版）
目录概念常识 Java 语言有哪些特点? JVM.JRE和JDK的关系什么是字节码? 为什么说 Java 语言是"编译与解释并存"? Oracle JDK 和OpenJDK的区 ...
warning: setlocale: LC_ALL: cannot change locale (en_US.UTF-8): No such file or directory
1)apt-get clean && apt-get update && apt-get install -y locales 2)locale-gen en_US.U ...
博客从 CloudBase 迁移至云主机
迁移起因原来的博客其实从很久以前就想要写博客,但总是断断续续的,一直都没有认真地开始. 最终,决定使用静态博客工具作为自己博客的承载体.在多种工具的比较下,最终选择了 Hugo 并部署到 Gith ...
淘淘蓝蓝的CSP-S神妙膜你赛2-淘淘蓝蓝喜欢01串题解
问题简述给定\(n\)个盒子,每个盒子的容器为\(b[i]\),里面装有\(a[i]\)个物品.今有\(q\)组询问,每组询问给出一个正整数\(k(k<=n)\),已知一个盒子里的一件物品转移 ...
在Linux虚拟机中添加多个固定ip地址
1.右键点击设置2.点击添加,再点击网络适配器,最后点击完成.3.选择完成后的网络适配器,选择仅主机模式.4.用roott身份登录,用nmtui进行设置 systemctl start Network ...
Golang 盲注脚本
Golang 盲注脚本 payload部分其中脚本最重要的环节就是payload部分了,需要如何去闭合,如何构造SQL语句来达到判断的效果.(还有如何绕过waf等等...) bool盲注下面是最基 ...

Spark 写 Hbase

Spark 写 Hbase的更多相关文章

随机推荐

热门专题