spark运算结果写入hbase及优化

在Spark中利用map-reduce或者spark
sql分析了数据之后，我们需要将结果写入外部文件系统。

本文，以向Hbase中写数据，为例，说一下，Spark怎么向Hbase中写数据。

首先，需要说一下，下面的这个方法。

foreach (func)

最通用的输出操作，把func作用于从map-reduce生成的每一个RDD(spark  sql生成的DataFrame可转成RDD)。

注意：这个函数是在运行spark程序的driver进程中执行的。

下面跟着思路，看一下，怎么优雅的向Hbase中写入数据

向外部数据库写数据，通常会建立连接，使用连接发送数据(也就是保存数据)。

<pre name="code" class="java"><span style="font-size:18px;color:#003300;">DataFrame dataFrame = Contexts.hiveContext.sql("select * from tableName");

dataFrame.javaRDD().foreach(new VoidFunction<Row> () {

    public void call(Row row) {

        HConnection conn = ...

        HTableInterface htable = conn.getTable("");

        //save to hbase

    }

});</span>

很遗憾！这种写法是有极大风险的，这会导致，对于每条数据，都创建一个connection(创建connection是消耗资源的)。

事实上，由于数据是分区的，基于这个特性，还可以有更高效的方式

下面的方法会好一些：

<span style="font-size:18px;color:#003300;">DataFrame dataFrame = Contexts.hiveContext.sql("select * from tableName");

dataFrame.javaRDD().foreachPartition(new VoidFunction<Iterator<Row>> () {

    public void call(Iterator<Row> rows) {

        HConnection conn = ...

        HTableInterface htable = conn.getTable("");

        while(rows.hasNext()){

            //save to hbase

        }

    }

});</span>

上面的方法，使用 rdd.foreachPartition创建一个connection对象，一个RDD分区中的所有数据，都使用这一个connection。

在多个RDD之间，connection对象是可以重用的，所以可以创建一个连接池。如下：

<span style="font-size:18px;color:#003300;">dataFrame.javaRDD().foreachPartition(new VoidFunction<Iterator<Row>> () {

    public void call(Iterator<Row> rows) {

        HTableInterface htable = TablePool.getHTable("");

        while(rows.hasNext()){

            //save to hbase

        }

    }

});</span>

注意：连接池中的连接应该是，应需求而延迟创建，并且，如果一段时间没用，就超时了(也就是关闭该连接)。

spark运算结果写入hbase及优化的更多相关文章

Spark RDD批量写入Hbase
MapReduce和Spark写入Hbase多表总结
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时,直接在mapreduc ...
Spark Streaming实时写入数据到HBase
一.概述在实时应用之中,难免会遇到往NoSql数据如HBase中写入数据的情景.题主在工作中遇到如下情景,需要实时查询某个设备ID对应的账号ID数量.踩过的坑也挺多,举其中之一,如一开始选择使用NE ...
Spark DataFrame写入HBase的常用方式
Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法.例如用户画像.单品画像.推荐 ...
kerberos环境下spark消费kafka写入到Hbase
一.准备环境: 创建Kafka Topic和HBase表 1. 在kerberos环境下创建Kafka Topic 1.1 因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需 ...
大数据学习day34---spark14------1 redis的事务(pipeline)测试，2. 利用redis的pipeline实现数据统计的exactlyonce ，3 SparkStreaming中数据写入Hbase实现ExactlyOnce， 4.Spark StandAlone的执行模式，5 spark on yarn
1 redis的事务(pipeline)测试 Redis本身对数据进行操作,单条命令是原子性的,但事务不保证原子性,且没有回滚.事务中任何命令执行失败,其余的命令仍会被执行,将Redis的多个操作放到 ...
HBase性能优化方法总结(转)
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客. 1. 表的设计 1.1 Pr ...
HBase性能优化方法总结（一）：表的设计
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. 下面是本文总结的第一部分内容:表的设计相关的优化方法 ...
hbase性能优化总结
hbase性能优化总结 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都 ...

随机推荐

ES6 new syntax of Default Function Parameters
Default Function Parameters.md Default Function Parameters function getSum(a,b){ a = (a !== undefine ...
[LeetCode] Reorganize String 重构字符串
Given a string S, check if the letters can be rearranged so that two characters that are adjacent to ...
[LeetCode] K Inverse Pairs Array K个翻转对数组
Given two integers n and k, find how many different arrays consist of numbers from 1 to n such that ...
Caffe+VS2015+python3的安装（基于windows）
在网上找了许多安装Caffe的教程感觉全都是杂乱无章的而且也没有详细的只能自己当小白鼠来实验一次了本次配置:CUDA 8.0+ CUDNN +VS 2015 +Python 3.5 + Ca ...
luogu 3413 SAC#1 - 萌数
题目描述辣鸡蒟蒻SOL是一个傻逼,他居然觉得数很萌! 好在在他眼里,并不是所有数都是萌的.只有满足“存在长度至少为2的回文子串”的数是萌的——也就是说,101是萌的,因为101本身就是一个回文数:1 ...
codeforces 815C Karen and Supermarket
On the way home, Karen decided to stop by the supermarket to buy some groceries. She needs to buy a ...
Blocks
Description solution 这题和之前做过的一题的一个套路非常类似:把不是更优的决策给去掉,使得序列变得具有单调性,分析这题: 发现如果两个右端点 \(i\),\(j\) 满足 \(su ...
hdu 5002 (动态树lct)
Tree Time Limit: 16000/8000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submi ...
【bzoj4570 scoi2016】妖怪
题目描述邱老师是妖怪爱好者,他有n只妖怪,每只妖怪有攻击力atk和防御力dnf两种属性.邱老师立志成为妖怪大师,于是他从真新镇出发,踏上未知的旅途,见识不同的风景. 环境对妖怪的战斗力有很大影响,在 ...
python+eclipse+pydev开发环境搭建
1.安装配置python2.7(右击我的电脑->属性->高级系统设置->环境变量->系统变量列表中找到Path并双击->变量值中添加";C:\Python27; ...

spark运算结果写入hbase及优化

spark运算结果写入hbase及优化的更多相关文章

随机推荐

热门专题