scala_spark实践3

Spark 读写HBase优化

读数据

可以采用RDD的方式读取HBase数据：

val conf = HBaseConfiguration.create()

conf.set(TableInputFormat.INPUT_TABLE, hTabName) //设置查询的表名

val rdd = sparkContext.newAPIHadoopRDD(

  conf,

  classOf[TableInputFormat],

  classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

  classOf[org.apache.hadoop.hbase.client.Result]

)

写数据

可以采用bulk的方式写数据：

val conf = HBaseConfiguration.create()

conf.set(TableOutputFormat.OutPUT_TABLE, hTabName) //设置要输出的表名

rdd.map({

    val put = new Put(Bytes.toBytes("行键"))

    ...

    (new ImmutableBytesWritable, put)           //转换成HBaseRDD的形式

}).saveAsNewAPIHadoopDataset(conf)

个人见解：

使用RDD的形式，Spark可能会事先建立与HBase的连接并广播到各个分区并行拉取数据。
使用bulk则是调用HBase原本具有的加载文件的工具：bulkLoad，通过事先转换成HFile文件，使得HBase可以跳过WAL日志机制和flush机制，直接将文件加载到存储中。

scala_spark实践3的更多相关文章

scala_spark实践4
SparkStreaming中foreachRDD SparkStreaming是流式实时处理数据,就是将数据流按照定义的时间进行分割(就是“批处理”).每一个时间段内处理的都是一个RDD.而Spar ...
scala_spark实践2
参考:jianshu.com/p/9d2d225c1951 监听socket获取数据,代码如下:这里使用nc -lk 9999 在ip为10.121.33.44的机器上发送消息 object Sock ...
scala_spark实践1
/** * scala模型的main(args:Array[String])是业务执行入口 * org.apache.spark.{SparkConf, SparkContext} * val spa ...
webp图片实践之路
最近,我们在项目中实践了webp图片,并且抽离出了工具模块,整合到了项目的基础模板中.传闻IOS10也将要支持webp,那么使用webp带来的性能提升将更加明显.估计在不久的将来,webp会成为标配. ...
Hangfire项目实践分享
Hangfire项目实践分享目录 Hangfire项目实践分享目录什么是Hangfire Hangfire基础基于队列的任务处理(Fire-and-forget jobs) 延迟任务执行(De ...
TDD在Unity3D游戏项目开发中的实践
0x00 前言关于TDD测试驱动开发的文章已经有很多了,但是在游戏开发尤其是使用Unity3D开发游戏时,却听不到特别多关于TDD的声音.那么本文就来简单聊一聊TDD如何在U3D项目中使用以及如何使 ...
Logstash实践: 分布式系统的日志监控
文/赵杰 2015.11.04 1. 前言服务端日志你有多重视? 我们没有日志有日志,但基本不去控制需要输出的内容经常微调日志,只输出我们想看和有用的经常监控日志,一方面帮助日志微调,一方面及 ...
【大型网站技术实践】初级篇：借助Nginx搭建反向代理服务器
一.反向代理:Web服务器的“经纪人” 1.1 反向代理初印象反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从 ...
Windows平台分布式架构实践 - 负载均衡
概述最近.NET的世界开始闹腾了,微软官方终于加入到了对.NET跨平台的支持,并且在不久的将来,我们在VS里面写的代码可能就可以通过Mono直接在Linux和Mac上运行.那么大家(开发者和企业)为 ...

随机推荐

【Weiss】【第03章】练习3.7：有序多项式相乘
[练习3.7] 编写一个函数将两个多项式相乘,用一个链表实现.你必须保证输出的多项式按幂次排列,并且任意幂次最多只有一项. a.给出以O(M2N2)时间求解该问题的算法. b.写一个以O(M2N)时间 ...
No compiler is provided in this environment报错解决方案
[Bugku]Web题解
bugku地址链接:https://ctf.bugku.com 1.web2 浏览器就显示一堆动态笑脸,时间长了密集恐惧症了. 解法1: F12查看源码解法2: 地址栏输入: view-source ...
VS中执行汇编代码
unsigned char shellcode[] = "\xfc\xe8\x82\x00\x00\x00\x60\x89\xe5\x31\xc0\x64\x8b\x50" &qu ...
解析“60k”大佬的19道C#面试题（上）
解析"60k"大佬的19道C#面试题(上) 先略看题目: 请简述async函数的编译方式请简述Task状态机的实现和工作机制请简述await的作用和原理,并说明和GetResu ...
ICLR 2020 | 抛开卷积，multi-head self-attention能够表达任何卷积操作
近年来很多研究将nlp中的attention机制融入到视觉的研究中,得到很不错的结果,于是,论文侧重于从理论和实验去验证self-attention可以代替卷积网络独立进行类似卷积的操作,给self- ...
Python电影数据分析
数据说明:MovieLens数据集,它包含来自于943个用户以及精选的1682部电影的100K个电影打分.每个用户至少为20部电影打分,数据类型user id | item id | rating | ...
Jupyter Notebook自动补全
大多数程序员都非常熟悉不同的自动补全工具.然而,我注意到许多数据科学家还没有使用它.如果你是他们中的一员,是时候开始使用这个提高效率的工具了什么是自动补全? 它是你的编程环境提供的一种功能,用于完成 ...
js数据类型及方法
数据类型及方法数据类型 number 不区分整数和浮点数 string 字符串 boolean true / false 布尔 object null 数组 function 函数 undefine ...
spring-cloud-gateway动态路由
概述线上项目发布一般有以下几种方案: 停机发布蓝绿部署滚动部署灰度发布停机发布这种发布一般在夜里或者进行大版本升级的时候发布,因为需要停机,所以现在大家都在研究 Devops 方案. 蓝绿 ...

scala_spark实践3

Spark 读写HBase优化

读数据

写数据

scala_spark实践3的更多相关文章

随机推荐

热门专题