Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：

JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3));

Scala版本如下：

val myRDD= sc.parallelize(List(1,2,3))

　　这种方式很简单，很容易就可以将一个集合中的数据变成RDD的初始化值；更常见的是（2）、从文本中读取数据到RDD中，这个文本可以是纯文本文件、可以是sequence文件；可以存放在本地(file://)、可以存放在HDFS（hdfs://）上，还可以存放在S3上。其实对文件来说，Spark支持Hadoop所支持的所有文件类型和文件存放位置。Java版如下：

/////////////////////////////////////////////////////////////////////

User: 过往记忆

Date: 14-6-29

Time: 23:59

bolg:

本文地址：/archives/1051

过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货

过往记忆博客微信公共帐号：iteblog_hadoop

/////////////////////////////////////////////////////////////////////

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

SparkConf conf = new SparkConf().setAppName("Simple Application");

JavaSparkContext sc = new JavaSparkContext(conf);

sc.addFile("wyp.data");

JavaRDD<String> lines = sc.textFile(SparkFiles.get("wyp.data"));

Scala版本如下：

import org.apache.spark.SparkContext

import org.apache.spark.SparkConf

val conf = new SparkConf().setAppName("Simple Application")

val sc = new SparkContext(conf)

sc.addFile("spam.data")

val inFile = sc.textFile(SparkFiles.get("spam.data"))

　　在实际情况下，我们需要的数据可能不是简单的存放在HDFS文本中，我们需要的数据可能就存放在Hbase中，那么我们如何用Spark来读取Hbase中的数据呢？本文的所有测试是基于Hadoop 2.2.0、Hbase 0.98.2、Spark 0.9.1，不同版本可能代码的编写有点不同。本文只是简单地用Spark来读取Hbase中的数据，如果需要对Hbase进行更强的操作，本文可能不能帮你。话不多说，Spark操作Hbase的Java版本代码如下：

package com.iteblog.spark;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableInputFormat;

import org.apache.hadoop.hbase.protobuf.ProtobufUtil;

import org.apache.hadoop.hbase.protobuf.generated.ClientProtos;

import org.apache.hadoop.hbase.util.Base64;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Serializable;

import scala.Tuple2;

import java.io.IOException;

import java.util.List;

/**

 * User: iteblog

 * Date: 14-6-27

 * Time: 下午5:18

 *blog: http://www.iteblog.com

 *

 * Usage: bin/spark-submit --master yarn-cluster --class com.iteblog.spark.SparkFromHbase

 * --jars /home/q/hbase/hbase-0.96.0-hadoop2/lib/htrace-core-2.01.jar,

 * /home/q/hbase/hbase-0.96.0-hadoop2/lib/hbase-common-0.96.0-hadoop2.jar,

 * /home/q/hbase/hbase-0.96.0-hadoop2/lib/hbase-client-0.96.0-hadoop2.jar,

 * /home/q/hbase/hbase-0.96.0-hadoop2/lib/hbase-protocol-0.96.0-hadoop2.jar,

 * /home/q/hbase/hbase-0.96.0-hadoop2/lib/hbase-server-0.96.0-hadoop2.jar

 * ./spark_2.10-1.0.jar

 */

public class SparkFromHbase implements Serializable {

    /**

     * copy from org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil

     *

     * @param scan

     * @return

     * @throws IOException

     */

    String convertScanToString(Scan scan) throws IOException {

        ClientProtos.Scan proto = ProtobufUtil.toScan(scan);

        return Base64.encodeBytes(proto.toByteArray());

    }

    public void start() {

        SparkConf sparkConf = new SparkConf();

        JavaSparkContext sc = new JavaSparkContext(sparkConf);

        Configuration conf = HBaseConfiguration.create();

        Scan scan = new Scan();

        //scan.setStartRow(Bytes.toBytes("195861-1035177490"));

        //scan.setStopRow(Bytes.toBytes("195861-1072173147"));

        scan.addFamily(Bytes.toBytes("cf"));

        scan.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("col_1"));

        try {

            String tableName = "wyp";

            conf.set(TableInputFormat.INPUT_TABLE, tableName);

            conf.set(TableInputFormat.SCAN, convertScanToString(scan));

            JavaPairRDD<ImmutableBytesWritable, Result> hBaseRDD = sc.newAPIHadoopRDD(conf,

                    TableInputFormat.class, ImmutableBytesWritable.class,

                    Result.class);

            JavaPairRDD<String, Integer> levels = hBaseRDD.mapToPair(

                    new PairFunction<Tuple2<ImmutableBytesWritable, Result>, String, Integer>() {

                        @Override

                        public Tuple2<String, Integer> call(Tuple2<ImmutableBytesWritable, Result> immutableBytesWritableResultTuple2) throws Exception {

                            byte[] o = immutableBytesWritableResultTuple2._2().getValue(Bytes.toBytes("cf"), Bytes.toBytes("col_1"));

                            if (o != null) {

                                return new Tuple2<String, Integer>(new String(o), 1);

                            }

                            return null;

                        }

                    });

            JavaPairRDD<String, Integer> counts = levels.reduceByKey(

                    new Function2<Integer, Integer, Integer>() {

                        @Override

                        public Integer call(Integer i1, Integer i2) {

                            return i1 + i2;

                        }

                    });

            List<Tuple2<String, Integer>> output = counts.collect();

            for (Tuple2 tuple : output) {

                System.out.println(tuple._1() + ": " + tuple._2());

            }

            sc.stop();

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) throws InterruptedException {

        new SparkFromHbase().start();

        System.exit(0);

    }

}

这样本段代码段是从Hbase表名为flight_wap_order_log的数据库中读取cf列簇上的airName一列的数据，这样我们就可以对myRDD进行相应的操作：

System.out.println(myRDD.count());

本段代码需要在pom.xml文件加入以下依赖：

<dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.10</artifactId>

<version>0.9.1</version>

</dependency>

<dependency>

<groupId>org.apache.hbase</groupId>

<artifactId>hbase</artifactId>

<version>0.98.2-hadoop2</version>

</dependency>

<dependency>

<groupId>org.apache.hbase</groupId>

<artifactId>hbase-client</artifactId>

<version>0.98.2-hadoop2</version>

</dependency>

<dependency>

<groupId>org.apache.hbase</groupId>

<artifactId>hbase-common</artifactId>

<version>0.98.2-hadoop2</version>

</dependency>

<dependency>

<groupId>org.apache.hbase</groupId>

<artifactId>hbase-server</artifactId>

<version>0.98.2-hadoop2</version>

</dependency>

Scala版如下：

import org.apache.spark._

import org.apache.spark.rdd.NewHadoopRDD

import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor}

import org.apache.hadoop.hbase.client.HBaseAdmin

import org.apache.hadoop.hbase.mapreduce.TableInputFormat

/////////////////////////////////////////////////////////////////////

User: 过往记忆

Date: 14-6-29

Time: 23:59

bolg:

本文地址：/archives/1051

过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货

过往记忆博客微信公共帐号：iteblog_hadoop

/////////////////////////////////////////////////////////////////////

object HBaseTest {

def main(args: Array[String]) {

val sc = new SparkContext(args(0), "HBaseTest",

System.getenv("SPARK_HOME"), SparkContext.jarOfClass(this.getClass))

val conf = HBaseConfiguration.create()

conf.set(TableInputFormat.INPUT_TABLE, args(1))

val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],

classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

classOf[org.apache.hadoop.hbase.client.Result])

hBaseRDD.count()

System.exit(0)

}

我们需要在加入如下依赖：

libraryDependencies ++= Seq(

"org.apache.spark" % "spark-core_2.10" % "0.9.1",

"org.apache.hbase" % "hbase" % "0.98.2-hadoop2",

"org.apache.hbase" % "hbase-client" % "0.98.2-hadoop2",

"org.apache.hbase" % "hbase-common" % "0.98.2-hadoop2",

"org.apache.hbase" % "hbase-server" % "0.98.2-hadoop2"

)

　　在测试的时候，需要配置好Hbase、Hadoop环境，否则程序会出现问题，特别是让程序找到Hbase-site.xml配置文件。

package com.iteblog.spark;

	import org.apache.hadoop.conf.Configuration;
	import org.apache.hadoop.hbase.HBaseConfiguration;
	import org.apache.hadoop.hbase.client.Result;
	import org.apache.hadoop.hbase.client.Scan;
	import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
	import org.apache.hadoop.hbase.mapreduce.TableInputFormat;
	import org.apache.hadoop.hbase.protobuf.ProtobufUtil;
	import org.apache.hadoop.hbase.protobuf.generated.ClientProtos;
	import org.apache.hadoop.hbase.util.Base64;
	import org.apache.hadoop.hbase.util.Bytes;
	import org.apache.spark.SparkConf;
	import org.apache.spark.api.java.JavaPairRDD;
	import org.apache.spark.api.java.JavaSparkContext;
	import org.apache.spark.api.java.function.Function2;
	import org.apache.spark.api.java.function.PairFunction;
	import scala.Serializable;
	import scala.Tuple2;

	import java.io.IOException;
	import java.util.List;

	/**
	* User: iteblog
	* Date: 14-6-27
	* Time: 下午5:18
	*blog: http://www.iteblog.com
	*
	* Usage: bin/spark-submit --master yarn-cluster --class com.iteblog.spark.SparkFromHbase
	* --jars /home/q/hbase/hbase-0.96.0-hadoop2/lib/htrace-core-2.01.jar,
	* /home/q/hbase/hbase-0.96.0-hadoop2/lib/hbase-common-0.96.0-hadoop2.jar,
	* /home/q/hbase/hbase-0.96.0-hadoop2/lib/hbase-client-0.96.0-hadoop2.jar,
	* /home/q/hbase/hbase-0.96.0-hadoop2/lib/hbase-protocol-0.96.0-hadoop2.jar,
	* /home/q/hbase/hbase-0.96.0-hadoop2/lib/hbase-server-0.96.0-hadoop2.jar
	* ./spark_2.10-1.0.jar
	*/
	public class SparkFromHbase implements Serializable {

	/**
	* copy from org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil
	*
	* @param scan
	* @return
	* @throws IOException
	*/
	String convertScanToString(Scan scan) throws IOException {
	ClientProtos.Scan proto = ProtobufUtil.toScan(scan);
	return Base64.encodeBytes(proto.toByteArray());
	}

	public void start() {
	SparkConf sparkConf = new SparkConf();
	JavaSparkContext sc = new JavaSparkContext(sparkConf);


	Configuration conf = HBaseConfiguration.create();

	Scan scan = new Scan();
	//scan.setStartRow(Bytes.toBytes("195861-1035177490"));
	//scan.setStopRow(Bytes.toBytes("195861-1072173147"));
	scan.addFamily(Bytes.toBytes("cf"));
	scan.addColumn(Bytes.toBytes("cf"), Bytes.toBytes("col_1"));

	try {

	String tableName = "wyp";
	conf.set(TableInputFormat.INPUT_TABLE, tableName);
	conf.set(TableInputFormat.SCAN, convertScanToString(scan));


	JavaPairRDD<ImmutableBytesWritable, Result> hBaseRDD = sc.newAPIHadoopRDD(conf,
	TableInputFormat.class, ImmutableBytesWritable.class,
	Result.class);

	JavaPairRDD<String, Integer> levels = hBaseRDD.mapToPair(
	new PairFunction<Tuple2<ImmutableBytesWritable, Result>, String, Integer>() {
	@Override
	public Tuple2<String, Integer> call(Tuple2<ImmutableBytesWritable, Result> immutableBytesWritableResultTuple2) throws Exception {
	byte[] o = immutableBytesWritableResultTuple2._2().getValue(Bytes.toBytes("cf"), Bytes.toBytes("col_1"));
	if (o != null) {
	return new Tuple2<String, Integer>(new String(o), 1);
	}
	return null;
	}
	});

	JavaPairRDD<String, Integer> counts = levels.reduceByKey(
	new Function2<Integer, Integer, Integer>() {
	@Override
	public Integer call(Integer i1, Integer i2) {
	return i1 + i2;
	}
	});

	List<Tuple2<String, Integer>> output = counts.collect();
	for (Tuple2 tuple : output) {
	System.out.println(tuple._1() + ": " + tuple._2());
	}

	sc.stop();

	} catch (Exception e) {
	e.printStackTrace();
	}
	}

	public static void main(String[] args) throws InterruptedException {
	new SparkFromHbase().start();
	System.exit(0);
	}
	}

Spark读取Hbase中的数据的更多相关文章

IDEA中Spark读Hbase中的数据
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.io.ImmutableBytesWr ...
IDEA中Spark往Hbase中写数据
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.io.ImmutableBytesWr ...
Spark 读取HBase和SolrCloud数据
Spark1.6.2读取SolrCloud 5.5.1 //httpmime-4.4.1.jar // solr-solrj-5.5.1.jar //spark-solr-2.2.2-20161007 ...
Spark读写Hbase中的数据
def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppN ...
用Spark向HBase中插入数据
java代码如下: package db.insert; import java.util.Iterator; import java.util.StringTokenizer; import org ...
使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
Spark读取HDFS中的Zip文件
1. 任务背景近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同 ...
Python中如何读取xls中的数据
要想读取EXCEL中的数据,首先得下载xlrd包,地址:https://pypi.python.org/pypi/xlrd 安装方法:下载解压后,利用windows dos命令进入解压目录eg,c ...
编写SqlHelper使用，在将ExecuteReader方法封装进而读取数据库中的数据时会产生Additional information: 阅读器关闭时尝试调用 Read 无效问题，解决方法与解释
在自学杨中科老师的视频教学时,拓展编写SqlHelper使用,在将ExecuteReader方法封装进而读取数据库中的数据时会产生Additional information: 阅读器关闭时尝试调用 ...

随机推荐

Java流程控制以及顺序、选择、循环结构
目录用户交互Scanner Scanner对象 hasNext()与next() hasNextLine()与nextLine() Scanner进阶用法求和与平均数顺序结构选择结构 if单选 ...
MySQL创建用户，并设置指定访问数据库
一.创建用户并授权 1. 登录mysql mysql -u root -q输入密码2. 创建数据库(已有数据库就不需要建立) create database newDB;//以创建newDB为例3. ...
Leetcode 416分割等和子集
416. 分割等和子集已知是个背包问题,由于可以等分为两部分,所以必定是个偶数. 一开始想到的是回溯法 bool helper(vector<int>&nums, int i, ...
读Pyqt4教程，带你入门Pyqt4 _011
当我们想要改变或者增强已存在的窗口组件时,或者准备从零开始创建自定义窗口组件时,可以使用绘图.我们通过使用PyQt4工具包提供的绘图API来绘图. 绘图在 paintEvent() 方法中进行.绘制代 ...
Map接口之HashMap，LinkedHashMap，TreeMap
Map与Collection 并列存在,用于保存具有映射关系的数据:Key-Value Map中的Key和Value都可以是任何引用类型的数据 Map中的Key用Set存放,不允许重复,即同一个Map ...
jchdl - GSL Port
https://mp.weixin.qq.com/s/DVmMrCFgNLuZDtssQ85w7A org.jchdl.model.gsl.core.meta.Port.java gen ...
jchdl - GSL实例：HalfAdder
https://mp.weixin.qq.com/s/Y97bIro7UlPPFCoPlzgmOQ 半加器电路是指对两个输入相加,输出一个结果位和,没有进位输入的电路. 是实现两个一位二进制数的加法运 ...
ASP.NET MVC 数据传递进阶从数据库拿到数据后的三种方式
目录回顾数据显示因为这个小练习有EF的一些东西,我们来回顾一下. 一.回顾回顾一点EF的知识怎么生成数据库模型. 1.首先我们在Models文件夹右键添加新建项,在数据分栏下有ADO.NET ...
SQL Server数据库附加失败错误：5123，拒绝访问
发生错误的图片如下我们需要更改数据库文件的权限(mdf和ldf两个文件) 右键数据库文件,点击属性选择安全,点击高级,把每一个角色的访问权限都变成完全控制如图所示然后确定确定确定保存等等, l ...
Java实现蓝桥杯算法训练画图（暴力）
试题算法训练画图问题描述在一个定义了直角坐标系的纸上,画一个(x1,y1)到(x2,y2)的矩形指将横坐标范围从x1到x2,纵坐标范围从y1到y2之间的区域涂上颜色. 下图给出了一个画了两个矩 ...

Spark读取Hbase中的数据

Spark读取Hbase中的数据的更多相关文章

随机推荐

热门专题