一、方式介绍

本次测试一种采用了四种方式进行了对比,分别是:1.在RDD内部调用java API。2、调用saveAsNewAPIHadoopDataset()接口。3、saveAsHadoopDataset()。4、BulkLoad方法。

测试使用的大数据版本如下(均为单机版):Hadoop2.7.4、Hbase1.0.2、Spark2.1.0

二、测试

本次测试采用10W条单一列簇单一字段固定值进行测试。

以下是测试结果:

1.JAVA API

  10W条数据:1000ms、944ms

  100w条数据:6308ms、6725ms

2.saveAsNewAPIHadoopDataset()接口

  10W条数据:2585ms、3125ms

  100w条数据:13833ms、14880ms

3.saveAsHadoopDataset()接口

10W条数据:2623ms、2596ms

  100w条数据:14929ms、13753ms

4.BulkLoad方法(此方法是导入大量数据最好的选择!!!)

    10W条数据:9351ms、9364ms

  100w条数据:9342ms、9403ms

1000w条数据:9690ms、9609ms

三、代码

pom引用

<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase</artifactId>
<version>1.2.6</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-client</artifactId>
<version>1.0.2</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-server</artifactId>
<version>1.0.2</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-common</artifactId>
<version>1.0.2</version>
</dependency> 1)javaAPI代码
-------------------------------------
package cn.piesat.app

import java.text.DecimalFormat
import java.util.{ArrayList, List, Random} import org.apache.hadoop.hbase.{HBaseConfiguration, HColumnDescriptor, HTableDescriptor, TableName}
import org.apache.hadoop.hbase.client._ object SparkJavaApi {
val ZOOKEEPER_ADDRESS = "hadoop01"
val ZOOKEEPER_PORT = "2181"
val df2: DecimalFormat = new DecimalFormat("00") def main(args: Array[String]) = {
val tableName: String = "test01"
val conn = getConn
val admin = conn.getAdmin
val putList = getPutList()
if (!admin.tableExists(TableName.valueOf(tableName))) {
createTable(admin, tableName, Array("cf"))
}
val start: Long = System.currentTimeMillis
insertBatchData(conn,tableName,admin,putList)
val end: Long = System.currentTimeMillis
System.out.println("用时:" + (end - start))
} def getConn(): Connection = {
val conf = HBaseConfiguration.create
conf.set("hbase.zookeeper.quorum", ZOOKEEPER_ADDRESS)
conf.set("hbase.zookeeper.property.clientPort", ZOOKEEPER_PORT)
ConnectionFactory.createConnection(conf)
} def insertBatchData(conn: Connection, tableName: String, admin: Admin, puts:List[Put]) = try {
val tableNameObj = TableName.valueOf(tableName)
if (admin.tableExists(tableNameObj)) {
val table = conn.getTable(tableNameObj)
table.put(puts)
table.close()
admin.close()
}
} catch {
case e: Exception =>
e.printStackTrace()
} def createTable(admin: Admin, tableName: String, colFamiles: Array[String]) = try {
val tableNameObj = TableName.valueOf(tableName)
if (!admin.tableExists(TableName.valueOf(tableName))) {
val desc = new HTableDescriptor(tableNameObj)
for (colFamily <- colFamiles) {
desc.addFamily(new HColumnDescriptor(colFamily))
}
admin.createTable(desc)
admin.close()
}
} catch {
case e: Exception =>
e.printStackTrace()
} def getPutList(): List[Put] = {
val random: Random = new Random
val putlist = new ArrayList[Put]();
for (i <- 0 until 100000) {
val rowkey: String = df2.format(random.nextInt(99)) + i
val put: Put = new Put(rowkey.getBytes)
put.add("cf".getBytes, "field".getBytes, "a".getBytes)
putlist.add(put)
}
putlist
} }
-------------------------------------

2)saveAsNewAPIHadoopDataset()接口
-------------------------------------
package cn.piesat.app

import java.text.DecimalFormat

import org.apache.hadoop.hbase.client._
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase._
import org.apache.hadoop.mapred.JobConf
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.sql.SparkSession import scala.collection.mutable.ListBuffer //10W用了2585ms
//100W用了13833ms、14880ms
object SparkToHbaseNewAPI {
val tableName = "test01"
val cf = "cf"
val num=1000000
val df2 = new DecimalFormat("00000000")
def main(args: Array[String]) = {
val sc = getSparkSession().sparkContext
val hbaseConf = HBaseConfiguration.create()
hbaseConf.set(HConstants.ZOOKEEPER_QUORUM, "hadoop01:2181")
val hbaseConn = ConnectionFactory.createConnection(hbaseConf)
val admin = hbaseConn.getAdmin
val jobConf = new JobConf(hbaseConf, this.getClass)
// 设置表名
jobConf.set(TableOutputFormat.OUTPUT_TABLE, tableName) // 如果表不存在则创建表
if (!admin.tableExists(TableName.valueOf(tableName))) {
val desc = new HTableDescriptor(TableName.valueOf(tableName))
val hcd = new HColumnDescriptor(cf)
desc.addFamily(hcd)
admin.createTable(desc)
} val job = Job.getInstance(jobConf)
job.setOutputKeyClass(classOf[ImmutableBytesWritable])
job.setOutputValueClass(classOf[Put])
job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])
var list = ListBuffer[Put]()
println("数据准备中。。。。")
for (i <- 0 to num) {
val put = new Put(df2.format(i).getBytes())
put.addColumn(cf.getBytes(), "field".getBytes(), "abc".getBytes())
list.append(put)
}
println("数据准备完成!")
val data = sc.makeRDD(list.toList).map(x => {
(new ImmutableBytesWritable, x)
})
val start = System.currentTimeMillis() data.saveAsNewAPIHadoopDataset(job.getConfiguration)
val end = System.currentTimeMillis()
println("入库用时:" + (end - start))
sc.stop() } def getSparkSession(): SparkSession = {
SparkSession.builder().
appName("SparkToHbase").
master("local[4]").
config("spark.serializer", "org.apache.spark.serializer.KryoSerializer").
getOrCreate()
}
}
-------------------------------------
3)saveAsHadoopDataset()接口
-------------------------------------
package cn.piesat.app
import java.text.DecimalFormat import org.apache.hadoop.hbase._
import org.apache.hadoop.hbase.client.{ConnectionFactory, Put}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapred.TableOutputFormat
import org.apache.hadoop.mapred.JobConf
import org.apache.spark.sql.SparkSession import scala.collection.mutable.ListBuffer
object SparkToHbaseOldAPI {
val tableName="test01"
val cf="cf"
val df2 = new DecimalFormat("00000000")
val num=1000000
//10W用时2623ms、2596ms
//100W用时14929ms、13753ms
def main(args: Array[String]): Unit = {
val sc = getSparkSession().sparkContext
val hbaseConf = HBaseConfiguration.create()
hbaseConf.set(HConstants.ZOOKEEPER_QUORUM, "hadoop01:2181")
val hbaseConn = ConnectionFactory.createConnection(hbaseConf)
val admin = hbaseConn.getAdmin
val jobConf = new JobConf(hbaseConf, this.getClass)
// 设置表名
jobConf.set(TableOutputFormat.OUTPUT_TABLE, tableName)
jobConf.setOutputFormat(classOf[TableOutputFormat]) // 如果表不存在则创建表
if (!admin.tableExists(TableName.valueOf(tableName))) {
val desc = new HTableDescriptor(TableName.valueOf(tableName))
val hcd = new HColumnDescriptor(cf)
desc.addFamily(hcd)
admin.createTable(desc)
} var list = ListBuffer[Put]()
println("数据准备中。。。。")
for (i <- 0 to num) {
val put = new Put(df2.format(i).getBytes())
put.addColumn(cf.getBytes(), "field".getBytes(), "abc".getBytes())
list.append(put)
}
println("数据准备完成!")
val data = sc.makeRDD(list.toList).map(x => {
(new ImmutableBytesWritable, x)
})
val start=System.currentTimeMillis()
data.saveAsHadoopDataset(jobConf)
val end=System.currentTimeMillis()
println("入库用时:"+(end-start))
sc.stop()
} def getSparkSession(): SparkSession = {
SparkSession.builder().
appName("SparkToHbase").
master("local[4]").
config("spark.serializer", "org.apache.spark.serializer.KryoSerializer").
getOrCreate()
}
}
-------------------------------------
4)BulkLoad方法(需要事先准备好数据文件)
------------------------------------
package cn.piesat

import org.apache.hadoop.fs.Path
import org.apache.hadoop.hbase.client.{HTable, Table, _}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.{HFileOutputFormat2, LoadIncrementalHFiles}
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName}
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.{SparkConf, SparkContext} object SparkHbaseBulkload { def main(args: Array[String]) = {
val sc = new SparkContext("local[4]", "appName")
val columnFamily1 = "cf"
val conf = HBaseConfiguration.create()
conf.set("hbase.zookeeper.property.clientPort", "2181")
conf.set("hbase.zookeeper.quorum", "hadoop01") val source=sc.textFile("file:///E:/student.txt").map{
x=>{
val splited=x.split(",")
val rowkey=splited(0)
val cf=splited(1)
val clomn=splited(2)
val value=splited(3)
(rowkey,cf,clomn,value)
}
}
val rdd = source.map(x => {
//将rdd转换成HFile需要的格式,我们上面定义了Hfile的key是ImmutableBytesWritable,那么我们定义的RDD也是要以ImmutableBytesWritable的实例为key
//KeyValue的实例为value
//rowkey
val rowKey = x._1
val family = x._2
val colum = x._3
val value = x._4
(new ImmutableBytesWritable(Bytes.toBytes(rowKey)), new KeyValue(Bytes.toBytes(rowKey), Bytes.toBytes(family), Bytes.toBytes(colum), Bytes.toBytes(value)))
})
//生成的HFile的临时保存路径
val stagingFolder = "hdfs://hadoop01:9000/data12"
//将日志保存到指定目录
rdd.saveAsNewAPIHadoopFile(stagingFolder,
classOf[ImmutableBytesWritable],
classOf[KeyValue],
classOf[HFileOutputFormat2],
conf)
//此处运行完成之后,在stagingFolder会有我们生成的Hfile文件 //开始即那个HFile导入到Hbase,此处都是hbase的api操作
val load = new LoadIncrementalHFiles(conf)
//hbase的表名
val tableName = "output_table"
//创建hbase的链接,利用默认的配置文件,实际上读取的hbase的master地址
val conn = ConnectionFactory.createConnection(conf)
//根据表名获取表
val table: Table = conn.getTable(TableName.valueOf(tableName))
try {
//创建一个hadoop的mapreduce的job
val job = Job.getInstance(conf)
//设置job名称
job.setJobName("DumpFile")
//此处最重要,需要设置文件输出的key,因为我们要生成HFil,所以outkey要用ImmutableBytesWritable
job.setMapOutputKeyClass(classOf[ImmutableBytesWritable])
//输出文件的内容KeyValue
job.setMapOutputValueClass(classOf[KeyValue])
//配置HFileOutputFormat2的信息
HFileOutputFormat2.configureIncrementalLoadMap(job, table)
//开始导入
val start=System.currentTimeMillis()
load.doBulkLoad(new Path(stagingFolder), table.asInstanceOf[HTable])
val end=System.currentTimeMillis()
println("用时:"+(end-start)+"毫秒!")
} finally {
table.close()
conn.close()
}
}
}
------------------------------------

Spark入Hbase的四种方式效率对比的更多相关文章

  1. Spark读写Hbase的二种方式对比

    作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 一.传统方式 这种方式就是常用的TableInputFormat和TableOutputForm ...

  2. 判断字符串中是否存在的几种方案:string.indexof、string.contains、list.contains、list.any几种方式效率对比

    我们在做项目时,可能会遇到这样的需求,比如判断,1,2,3,33,22,123, 中是否存在,3,. var str=",1,2,3,33,22,123,"; 一般有几种方式: 1 ...

  3. Spark JDBC系列--取数的四种方式

    Spark JDBC系列--取数的四种方式 一.单分区模式 二.指定Long型column字段的分区模式 三.高自由度的分区模式 四.自定义option参数模式 五.JDBC To Other Dat ...

  4. Spark:DataFrame批量导入Hbase的两种方式(HFile、Hive)

    Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使 ...

  5. 160624、Spark读取数据库(Mysql)的四种方式讲解

    目前Spark支持四种方式从数据库中读取数据,这里以Mysql为例进行介绍. 一.不指定查询条件 这个方式链接MySql的函数原型是: 1 def jdbc(url: String, table: S ...

  6. java 20 -10 字节流四种方式复制mp3文件,测试效率

    电脑太渣,好慢..反正速率是: 高效字节流一次读写一个字节数组 > 基本字节流一次读写一个字节数组 > 高效字节流一次读写一个字节 > 基本字节流一次读写一个字节 前两个远远快过后面 ...

  7. C#批量插入数据到Sqlserver中的四种方式

    我的新书ASP.NET MVC企业级实战预计明年2月份出版,感谢大家关注! 本篇,我将来讲解一下在Sqlserver中批量插入数据. 先创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的 ...

  8. 【Java EE 学习 80 下】【调用WebService服务的四种方式】【WebService中的注解】

    不考虑第三方框架,如果只使用JDK提供的API,那么可以使用三种方式调用WebService服务:另外还可以使用Ajax调用WebService服务. 预备工作:开启WebService服务,使用jd ...

  9. C#_批量插入数据到Sqlserver中的四种方式

    先创建一个用来测试的数据库和表,为了让插入数据更快,表中主键采用的是GUID,表中没有创建任何索引.GUID必然是比自增长要快的,因为你生成一个GUID算法所花的时间肯定比你从数据表中重新查询上一条记 ...

随机推荐

  1. Ubuntu安装deepin wine版QQ

    1.安装deepin wine环境 https://github.com/wszqkzqk/deepin-wine-ubuntu 直接下载zip包(或者用git方式克隆) 使用unzip解压到指定文件 ...

  2. IP划分

      30.112.0.0 255.255.224.0/ 30.112.32.0 255.255.248.0 30.112.36.0 255.255.252.0 30.112.38.0 255.255. ...

  3. 解决Wamp的 Error D:\wamp or PHP path 错误

    之前早早就用了wamp,发现还是挺好用的,就是刚开始改端口号之类的配置有点麻烦,不过还是一一解决了. 就在昨天安装了 composer . 突然发现wamp 有一个错 “Error D:\wamp o ...

  4. LINQ查询表达式详解(2)——查询表达式的转换

    简介 C#在执行LINQ查询表达式的时候,并不会指定其执行语义,而是将查询表达式转换为遵循查询表达式模式的方法的调用.具体而言,查询表达式将转换为以下名称的调用:Where.Select.Select ...

  5. 笔记本通过命令配置wifi win7系统

    查看本子是否支持承载网络 在开始菜单>附件>命令提示符(右键点击:以管理员身份运行) 命令行中输入以下内容,找到[支持的承载网络]这一行,如果为"是"就OK了,表示支持 ...

  6. rtsp学习----海康RTSP客户端连接深入分析

    转载于:http://blog.csdn.net/zhouyongku/article/details/41546789 海康相机RTSP连接代码分析 最近在做海康相机rtsp连接获取音视频的工作,现 ...

  7. PTA(Basic Level)1028.人口普查

    某城镇进行人口普查,得到了全体居民的生日.现请你写个程序,找出镇上最年长和最年轻的人. 这里确保每个输入的日期都是合法的,但不一定是合理的--假设已知镇上没有超过 200 岁的老人,而今天是 2014 ...

  8. Git及码云学习总结

    前言 一.Git是一个版本管理工具软件. 二.windows 系统的使用: 1.git软件的安装:https://git-scm.com/downloads mac系统是自带的不用安装 windows ...

  9. Python sqlalchemy 高级用法

    一. 关联查询 sys_user_list = SysPermission.query.join(OrgRolePermission, OrgRolePermission.sys_permission ...

  10. JVM 线上故障排查基本操作 (转)

    前言 对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该如何 ...